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Présentation 


Ce mémento de Statistique Descriptive présente de façon synthétique, structurée et 
illustrée l'ensemble des connaissances et des techniques à maîtriser en sciences 
économiques et sociales. 


Après un chapitre introductif, dans lequel le vocabulaire des statistiques est exposé, 
l'ensemble des connaissances nécessaires est développé en quatre parties. L'ouvrage 
contient de nombreux exemples permettant d'acquérir une pratique de cette matière : 


e Les séries statistiques à une dimension : Qu'il s'agisse de la décomposition du 
Produit Intérieur Brut d'un pays par secteur d'activité, ou de l'évolution du chiffre 
d'affaires d'une entreprise à travers le temps, l'étudiant doit pouvoir en maîtriser la forme 
et la signification : présentation en tableaux, en graphiques et calcul des caractéristiques 
résumées d'une série de chiffres (moyenne, écart-type, mode, médiane, etc.). 


« Les séries statistiques à deux dimensions : Le plus souvent, les tableaux et les 
graphiques présentent simultanément deux - voire plusieurs - dimensions d'un même 
phénomène, dans le but d'étudier leur interdépendance. Il existe pour cela des méthodes 
statistiques spécifiques, dont la plus connue est le coefficient de corrélation. 


e Les séries chronologiques : L'évolution des phénomènes économiques et sociaux 
dans le temps joue un rôle si important en économie que l'étude des séries 
chronologiques mérite un traitement particulier, afin d'exposer en détail des outils tels 
que la décomposition d'une série sous forme d'un trend et d’une composante 
saisonnière. 


e Les indices : Ils sont très utilisés en sciences sociales, de sorte qu'il est 
indispensable d'en connaître la construction, la manipulation et les propriétés. 


e Un glossaire, en fin d'ouvrage, reprend les principales formules étudiées dans le livre. 


L'ouvrage s'adresse en priorité aux étudiants d'AEJ et de sciences économiques et 
gestion, mais aussi à tous les étudiants des formations dont le cursus comprend une 
initiation à la statistique descriptive. 


Il peut être utilement complété par : 


— Le livre Exercices Corrigés de Statistique Descriptive, publié dans la collection Fac- 
Université, du même auteur. 


— Le site Internet de l'auteur, www.mazerolle.fr dont la rubrique « Statistique descriptive » 
est régulièrement mise à jour par des exercices corrigés, ainsi que des prolongements 
logiciels des exercices et des techniques statistiques exposés dans cet ouvrage. 
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Avertissement 


Les erreurs éventuelles qui subsisteraient dans cette première édition sont toutes de mon fait et 
seront corrigées dans les éditions ultérieures. 


CHAPITRE 1 


Voebüre de la statistique descriptive 


Ce chapitre introductif est consacré à la définition de la statistique descriptive ainsi que 
des différents termes qui en constituent le vocabulaire de base. 


1 + CHAMP DE LA STATISTIQUE DESCRIPTIVE 


Il suffit d'allumer son ordinateur ou d'écouter les informations à la radio pour constater 
que les statistiques sont partout. Ceci révèle que le monde moderne est presque 
entièrement tourné vers le quantitatif et le mesurable. D'où l'intérêt de la statistique, 
discipline relativement récente, mais qui correspond parfaitement à cette orientation du 
monde moderne. 


A - Définition 


Il existe de nombreuses définitions (plusieurs centaines), celle que nous donnons ici est 
celle de Bernard PŸY,dans son livre Statistique descriptive, nouvelle méthode pour bien 
comprendre et réussir (éditions Economica) : « La statistique [descriptive] est un 
ensemble de méthodes permettant de décrire et d'analyser, de façon quantifiée, des 
phénomènes repérés par des éléments nombreux, de même nature, susceptibles d'être 
dénombrés et classés. » 


Deux points importants ressortent de cette définition : 


1) Ensemble de méthodes : la statistique descriptive ne contient aucune théorie, mais 
seulement des outils d'investigation et de mesure des données chiffrées. 


2) Décrire et analyser, de façon quantifiée, des phénomènes repérés par des éléments 
nombreux : décrire, c'est-à-dire faire des tableaux, des graphiques, calculer des 
moyennes afin de faire ressortir la signification. 


B -— Statistique descriptive et statistique mathématique 


La statistique descriptive appartient cependant à un ensemble plus vaste, la 
statistique générale, qui se divise en deux branches : statistique descriptive, objet de 
ce mémento, et la statistique mathématique (ou statistique "inférentielle"), dont l'objet 
est de formuler des lois de comportement à partir d'observation souvent incomplètes. 
Cette dernière intervient dans les enquêtes et les sondages. Elle s'appuie non 
seulement sur la statistique descriptive, mais aussi sur le calcul des probabilités. 


| Schéma 1 : Les deux branches de la statistique 


Statistique descriptive 
= Statistique générale 
Statistique mathématique 
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2 e DESCRIPTION D'UNE POPULATION STATISTIQUE 
A - Unités statistiques, population, échantillons 


Les éléments nombreux dont s'occupe la statistique descriptive sont appelés des unités 
statistiques. Ces unités sont regroupées dans une population. Lorsque la population est 
trop importante pour être connue entièrement, on prélève un échantillon. Les relations qui 
existent entre la population, les échantillons et les unités statistiques sont résumées dans 
le schéma ci-dessous. 


| Schéma 2 : Unités statistiques, population, échantillons | 


So Neo Population à ° 
cu ° o o o . FR Een Echantillon 2 
OS o o Q 9 © 


En théorie, on doit soigneusement distinguer la description d'un échantillon et la 
description d'une population. C'est d'ailleurs l'un des objets principaux de la statistique 
mathématique que de préciser les conditions dans lesquelles un échantillon est 
représentatif d'une population. De ce fait, certaines formules de calcul qui sont valables 
pour une population sont légèrement différentes quand on les applique à un échantillon. 
C'est le cas notamment de la variance (voir le chapitre 3). Cependant, sauf mention 
contraire explicite, nous considérons dans cet ouvrage que les séries étudiées 
constituent une population complète et non un échantillon. 


B - Caractères et variables 


Dans une population, par exemple celle des étudiants d’une faculté, les unités sont 
repérées par le nom et le prénom des étudiants (on a donc une liste). Si l'on souhaite 
étudier cette population, on va retenir certains critères d'étude comme le sexe, la filière 
principale à laquelle chaque étudiant se rattache, les matières optionnelles qu'il a choisi, 
l’âge, le poids, la taille, etc. 


Parmi ces critères, certains sont quantitatifs, comme l’âge, le poids, la taille. On peut en 
effet effectuer des calculs numériques sur ces critères : poids moyen, taille maximale, 
taille minimale, etc. D’autres critères ne sont pas quantifiables, car on ne peut pas 
effectuer de calculs dessus. Ils sont qualitatifs. C’est le cas du sexe par exemple. On 
peut connaître l'effectif masculin et l'effectif féminin d’une population, mais la notion de 
« sexe moyen » n’a pas de sens et ne peut d’ailleurs pas être calculée. 


Afin de différencier les deux type de critères, les critères qualitatifs sont appelés des 
caractères et les critères quantitatifs des variables. On désigne par modalités les 
différentes catégories d’un caractère qualitatif et on qualifie de valeurs les différents 
chiffres d’une variable. 


Vocabulaire de la statistique descriptive € 


Exemple 1 : soit une population de 600 étudiants, avec un effectif féminin de 230 et un 
effectif masculin de 370. Traduisons ces informations dans le vocabulaire de la statistique 
descriptive. 


| Tableau 1 : Exemple d’un critère qualitatif 


P Population Effectif total : n = 600 


unités statistiques Chaque étudiant i = 1,2, ...,n 


Caractère Le sexe 


Modalités Féminin ou Masculin 


Effectifs associés 


à de 370 hommes, 230 femmes 
à chaque modalité 


L'effectif total, n, va se répartir entre l'effectif masculin et l'effectif féminin, ce qui nous 
permet décrire que n = n-+ + ny. Cette égalité, nous pouvons l'écrire parce que les 
différentes modalités d’un caractère sont à la fois exhaustives et incompatibles. 
Exhaustives, car elles décrivent toutes les valeurs ou états possibles d’un caractère. 


Incompatibles, car un individu ne peut pas avoir plus d’une modalité. 


Exemple 2 : soit un échantillon de 10 étudiants ayant passé un examen. Ils ont obtenu les 
notes suivantes (sur 20) : {16, 8, 6, 14, 10, 18, 13, 9, 10, 15}. 


Tableau 2 : Exemple d’un critère quantitatif 


E Échantillon Effectif de l'échantillon : n=10 


Unités statistiques Chaque étudiant i = 1,2, ...,n 


Valeurs (*) {6,8,9,10,13,14,15,16,18} 


Effectifs associés 1112111110 
à chaque valeur 


(*) Il n'y a que 9 valeurs, parce que le 10 est répété 2 fois. Ce qui montre l'importance de distinguer les 
valeurs de la variable et l'effectif de l'échantillon (ou de la population). L’effectif varie de 1 à n (avec n=10), 
tandis que les valeurs varient de 1 à 9 (avec h=9). 
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C - Modalités ordinales, modalités nominales 


Les modalités d'un caractère qualitatif, si elles ne peuvent pas être mesurées 
quantitativement, sont parfois susceptibles d'être classées. Ce sont des modalités 
ordinales. 


Exemple 1 : Un questionnaire de satisfaction demande aux consommateurs d'évaluer 
une prestation en cochant l’une des six catégories suivantes : 


(a) nulle, (b) médiocre, (c) moyenne, (d) assez bonne, (e) très bonne, (f) excellente 


Il s'agit de modalités ordinales puisqu'elles peuvent être hiérarchisées : une prestation 
excellente est meilleure qu'une prestation bonne, etc. La différence avec des valeurs 
quantitatives est qu'on ne peut dire, par exemple, si une prestation jugée excellente est 
deux fois ou quatre fois meilleure qu'une prestation décrite comme moyenne. On peut 
effectuer un classement, non une quantification. 


Remarque : certaines modalités  ordinales peuvent néanmoins être transformées 
Valeurs quantitatives. Ce sont en fait des valeurs quantitatives qui prennent l'apparence 
de modalités qualitatives ordinales. 


Exemple 2 : Des chemises sont classées par taille : XS, S, M, L, XL, XXL, XXXL. II 
s'agit de modalités faussement ordinales. En réalité il existe un tableau de 
correspondance qui explicitera à quelle taille en cm chacune de ces catégories 
correspond. 


Les modalités d'un caractère qualitatif qui ne peuvent pas être classées ou hiérarchisées 
sont dites nominales. 


Exemple 3 : On demande à un échantillon de personnes ce qu'évoque pour elles un 
parfum. Plus précisément, elles doivent cocher une des cases suivantes : 


(a) aventure, (b) sensualité, (c) confort, (d) nostalgie 


Il est clair qu'aucune comparaison ni hiérarchisation ne peuvent être établies entre ces 
modalités. Elles sont nominales. 


Remarque : Certaines modalités purement nominales sont parfois codées avec des 
chiffres. Par exemple, le sexe des individus d'une population sera codé par "1" pour les 
hommes et par "2" pour les femmes. Il s'agit bien là d'une tentative de quantification 
d'une variable purement nominale. On parle alors de variables pseudo-numériques. On 
peut en effet de cette façon calculer une moyenne, qui sera en fait la proportion des 
hommes dans la population ou dans l'échantillon. 
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D — Valeurs discrètes, valeurs continues 


Une variable quantitative peut-être discrète ou continue. Lorsque le nombre de valeurs 
possibles est fini (exemple : le nombre d'enfants, le nombre de pièces d’un logement, etc.), 
la variable est discrète. Lorsque le nombre de valeurs possibles de la variable est infini 
(exemple : la taille, le poids ou le revenu des ménages), la variable est continue. 


E - Unités individuelles et unités groupées 


Les unités d’une population, que le critère soit qualitatif ou quantitatif (discret ou continu), 
peuvent être présentées individuellement (c'est généralement le cas lorsque les données 
sont saisies) ou regroupées. Le regroupement peut être effectué par modalités, par 
valeurs ou par classes de modalités ou de valeurs. 


Exemple 1 : Un questionnaire de satisfaction demande à un échantillon de 10 
consommateurs d'évaluer une prestation en cochant l’une des six catégories suivantes : 


(a) nulle, (b) médiocre, (c) moyenne, (d) assez bonne, (e) très bonne, (f) excellente 


On présenter les données individuellement (tableau 3), groupées par modalités (tableau 4) 
ou par classes de modalités (tableau 5). 


Tableau 3 : Données présentées individuellement 


(*) Nom de la personne ou numéro si l’on veut préserver l'anonymat. 


| Tableau 4 : Données groupées par modalités 


Tableau 5 : Données groupées par classes de modalités 


De nulle à assez bonne De très bonne à excellente 
Classes 
(a-b-c-d) (e—f) 
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Exemple 2 : On a mesuré 20 personnes et les résultats sont (en cm): 


{148, 165, 145, 173, 148, 145, 152, 180, 135, 170, 170, 170, 142, 148, 165, 175, 180, 180, 180, 180} 


Il s'agit d'un variable continue (la taille), mais dont les valeurs sont ici connues 
individuellement. On peut aussi effectuer un regroupement par taille car certaines tailles, 
comme 170 ou 180, apparaissent plusieurs fois (tableau 6). 


Tableau 6 : Données groupées par valeurs 
Craie ss Le es Tous Te [es [me | [5 [5 


Il est également possible d'effectuer un regroupement par classes de valeurs. On choisira, 
à titre d'exemple, un regroupement par classes d'amplitudes égales (tableau 7), puis un 
regroupement par classes d'amplitudes inégales (tableau 8). On désigne par a, 
l'amplitude d’une classe. Dans le tableau 7, l'amplitude de classe est la même pour toutes 
les classes (10 cm) alors qu'elle est de 20 cm, 20 cm et 10 cm dans le tableau 8. 


Tableau 7 : Groupement par classes 
(amplitudes égales) 


Tableau 8 : Données groupées par valeurs 
(amplitudes inégales) 


Classes Effectifs 


[130-140] 


[130-1501 


[150-160] 
[160-170] 


[170-180] 


Lorsque les unités statistiques sont groupées par classes, on calcule un centre de classe, 
désigné par c;, qui est égal à la moyenne des extrémités de classes (voir le tableau 9 pour 
le calcul des centres de classe du tableau 8). 


Tableau 9 : Calcul des centres de classe 
des données du tableau 8 


Classes Centres de 
classe (c:) 


[130-150[ (130+150)/2 = 140 


[150-170[ (150+170)/2 = 160 
[170-180] (170+180)/2 = 175 
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Exemple 3 : On a questionné 100 ménages sur le nombre d'ampoules électriques utilisées 
dans leur domicile. Dans le premier tableau, les données sont regroupées par nombre 
d'ampoules. Dans le second tableau, elles sont regroupées par classes. 


Tableau 10 : Regroupement par nombre d'ampoules 
Nombre 
d'ampoules 


Effectifs 5 


Tableau 11 : Regroupement par classes 


1 
3 
co 


F- Effectifs, fréquences, pourcentages, ratios, taux et indices 


Une fois les unités statistiques d'une population répertoriées, celles-ci sont présentées 
dans des tableaux (voir le chapitre 2), de diverses manières : effectifs ou fréquences 
absolues, fréquences relatives, pourcentages, ratios, indices et taux. Il convient de 
définir ces termes avec précision : 


1) Effectifs ou fréquences absolues 


Il s’agit de la répartition brute des données. Lorsque les données sont présentées 
individuellement, chaque donnée a la même fréquence unitaire d'apparition, leur effectif 
ou fréquence absolue est égal à 1. Lorsque les données sont regroupées par valeurs 
ou modalités, les effectifs ou fréquences absolues correspondent au nombre de 
données qui ont la valeur ou modalité, ou encore qui sont groupées dans une classe 
donnée. 


Symboliquement, les effectifs ou fréquences absolues s'écrivent n,. Et la somme des 
effectifs est égale à n. Ainsi, dans le cas du tableau 11, les effectifs ou fréquences 
absolues dont respectivement égaux à n,=21, n,=63 et n,=16. De plus, on a : 


n+n,+n,=21+63+16-100=n (1) 
2) Fréquences relatives et pourcentages 


La fréquence relative est égale à la fréquence absolue divisée par l'effectif total : 


= (2) 
n 
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On a donc : 


n n n+n,+..+n n 
++ = LHLH EL E 22 n 1 


n s n n = n = (4) 


NS 
D 


Le pourcentage des données qui correspondent à une modalité, à une valeur ou à une 
classe s'obtient en multipliant la fréquence relative correspondante par 100. C'est-à- 


dire: 
Pourcentage de la valeur (modalité ou classe) i = f, x 100 (5) 
Le tableau 12 reprend l'exemple de la répartition des ménages en fonction du nombre 


d’ampoules utilisées à leur domicile, en ajoutant la colonne des fréquences relatives à côté 
de celle des fréquence absolues. La dernière ligne correspond aux totaux. 


Tableau 12 : Répartition des ménages en fonction du nombre 
d'’ampoules à leur domicile 


Effectifs ou Fréquences 


Classes fréquences relatives Pourcentages 
absolues 


Les colonnes 2 (fréquences absolues) et 4 (pourcentages) contiennent les mêmes valeurs 
car l'effectif total est égal à 100. Si celui-ci était différent de 100, les valeurs contenues 
dans les deux colonnes seraient différentes. 


3) Ratio, taux et indices 


Un ratio est une fraction qui divise deux quantités. Les fréquences relatives sont des 


ratios puisqu'elles divisent deux quantités. Plus généralement, les ratios sont très utilisés 
en statistiques. 


Exemple 1 : Soit la série de pièces défectueuses produites par 10 machines au cours 
d'une semaine donnée. 

{8, 16, 9, 33, 14, 5, 3, 7, 10, 7} 
Le ratio du nombre de pièces défectueuses le plus élevé au nombre de pièces 


défectueuses le plus faible est 33/3 = 11. La machine numéro 4 a donc produit 11 fois plus 
de pièces défectueuses que la machine numéro 7. 
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Un taux est le ratio d’une quantité par unité (de temps, de surface, de poids, etc.) 


Exemple 2 : Soit la série de pièces défectueuses produites par 10 machines au cours 
d’une semaine donnée. 
{8, 16, 9, 33, 14, 5, 3, 7, 10, 7} 


Ces chiffres sont des taux car ils sont exprimés dans l'unité « semaine ». Cette unité est 
« 1 ». On dit par conséquent 8 pièces par semaine, 16 pièces par semaine, etc. 


Un indice est le ratio d’une quantité à une autre quantité qui sert de référence, multiplié 
par 100. 


Exemple 3 : Soit la série de pièces défectueuses produites par 10 machines au cours 
d'une semaine donnée de l'exemple 1. Divisons chacune des valeurs de la série par la 
valeur la plus faible et multiplions ensuite chaque valeur par 100. Le résultat est une série 
d'indices, la « base 100 » étant la machine numéro 7. 


{266,7 , 533,3; 300; 1100 ; 466,7 ; 166,7 ; 100, 233,3, 333,3; 233,3} 


G - Tableau récapitulatif 


Le Schéma 3 ci-dessous récapitule les différentes sortes de données que l'on 
rencontre en statistique, en partant de la distinction fondamentale entre données 
qualitatives et données quantitatives. 


Schéma 3 : Différentes sortes de données statistiques 


Qualitatives 
Modalités Modalités 
ordinales nominales 


Données individuelles ) 


Quantitatives 
Valeurs Valeurs 
discrètes continues 
Données individuelles 
Données groupées 
par valeurs 


Données groupées 
par classes de valeurs 


Données individuelles 
Le 


Données individuelles | 
L 


Données groupées 
par modalités 
Données groupées 
par classes de modalités 


Données groupées 
par valeurs 


Données groupées 
par modalités 


dé À 
Données groupées 

par classes de valeurs 

CRE TRE ET 


Données groupées 


par classes de modalités 


34 MÉMENTO — STATISTIQUE DESCRIPTIVE 


3 ° TAUX DE CROISSANCE 
A - Définition 


Le taux de croissance est très utilisé en statistique et, plus généralement, en économie. II 
se définit ainsi : 


Taux de croissance = PAIE TAMVES -1 (3) 


Valeur de départ 


Soit g = taux de croissance, V, = valeur de départ et V, =valeur d'arrivée. On a : 


Le rapport V,/V, est appelé multiplicateur. Dès lors, on peut écrire : 


g = multiplicateur - 1 (5) 


Ou encore : 
multiplicateur = 1 +g (6) 
Prenons un exemple : 


V, = 150 


150 
Vs = 100 | SD 5 TT OU 
2 


100 


Le taux de croissance, exprimé en pourcentage, est égal à 0,5 x 100 = 50%. 


Ne pas confondre le taux de croissance, qui est une variation relative, et la variation 
absolue qui est V,-—V,. lci, la variation absolue est égale à 150-100 = 50. 


Remarque : 


1) Ne pas confondre le taux de croissance, qui est une variation relative, avec la 


Variation absolue, qui est égale à V, — V,. Dans l'exemple précédent, la variation absolue 
est égale à 150 - 100 = 50. En d'autres termes : 


Kg FF, _ variation absolue (7) 
Fi FS valeur de départ 
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2) En matière de taux de croissance, il n'y a pas de symétrie entre les hausses et les 
baisses : 

Lorsque je passe de 100 à 150, le taux de croissance, g est égal à (150/100) — 1 = 0,5, 
comme on l'a vu précédemment. Mais si maintenant on applique une baisse de 50% à 
150, on obtient 150(1-0,5) = 75. On ne retrouve pas la valeur de départ. Le graphique ci- 
dessous illustre ce point. 


Figure 1 : Une hausse de 50% suivie d’une baisse de 50% 


2 ; : 0 
B — Évolutions successives 


Soient g,, g,..., 9. des taux de croissance successifs. Le taux de croissance global sur 
la période 1,...,t est : 


g=(1+8)(1+g8,)..(1+g,)-1 (8) 


Exemple : soit une hausse de 5% suivie d'une hausse de 2%, puis d'une baisse de 
3%. Quel est le taux de croissance global (sur les 3 périodes) ? 


g=(1+0,05)(1+0,02)(1-0,03)—1=0,03887 


C - Taux de croissance moyen 


Soient g4, d...., 9. des taux de croissance successifs. Le taux de croissance moyen sur 
la période 1,...,t est : 


g={{(1+g)-1 (9) 
C'est-à-dire : 
1 
g=(1+g) -1 (9-1) 


Exemple : soit une grandeur qui a augmenté successivement de g, = 10%, g,= 20% et 
gd: = 40% sur 3 ans. Son taux d’accroissement global est : 


g= (1+0,1)(1+0,2)(1+0,4)-1=0,848 
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Et son taux de croissance moyen sur les trois périodes : 


1 


1 2 
g=(1+8) -1=1,848 -1 (10) 


D - Taux de croissance d'un produit 


Soient deux grandeurs à la date t: 
V,=(1+8,)" et U,=(1+8,)U, (11) 


La grandeur qui représente leur produit est : 


W=V,xU,=(1+8,)(1+2,)W (12) 


Et son taux de croissance est : 


= —-1=(1+8,)(1+8,)-1 (13) 


Exemple : Soit un commerçant qui augmente le prix d'un produit de 4%. À la suite de 
cette augmentation, la quantité vendue baisse de 3%. Le taux de croissance de la recette 
totale est alors donnée par : 


(1 + 0,04)(1 - 0,03) — 1 = (1,04 x 0,97) — 1 = + 0,0088 
Soit une hausse de 0,88% de la recette totale. 


E - Taux de croissance d'un rapport 


Soient deux grandeurs à la date t: 
V =(+g,) et U,=(1+g,)U, (14) 
La grandeur qui représente leur rapport est : 


2h es) (15) 
U, (+g,) 
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Et son taux de croissance est : 


_A+g)_. (16) 


A+g,) 


Z 


Exemple : soit un commerçant qui augmente le prix d'un produit de 4%. À la suite de 
cette augmentation, il constate que sa recette totale augmente de 0,88%. Etonné, il 
calcule le taux de croissance de la quantité vendue : 


(1 + 0,0088)/(1 + 0,04) - 1= 0,97 — 1 = - 0,03 


Il constate ainsi que la quantité vendue a baissé de 3%. Il comprend alors que si la 
recette totale a augmenté en dépit de la baisse de la quantité vendue, c'est parce que la 
baisse de la quantité vendue (3%) a été moins importante que l'augmentation du prix 
(4%) et s'endort content. 


4 e OPÉRATEURS SOMME ET PRODUIT 


A -— L'opérateur somme 


Pour exprimer une somme d'éléments de façon compacte, on utilise l'opérateur 
somme, symbolisé par la lettre grecque majuscule "Sigma". 


SigMa  —+ ) opérateur somme 


Exemple 1 : soit quatre valeurs d'une variable x, indicées par i : x;, X;, X3, X4. Le 
produit de ces 4 valeurs est donné par l'expression : 


4 
D E=x+x +X + x 
i=1 


L'expression de gauche se lit ainsi "somme des x, pour i allant de 1 à 4". Plus 
généralement, pour une somme de n éléments, on écrit : 


n 
D x=x+x +..+ x, 
i=1 


Exemple 2 : soit le tableau de valeurs suivant. Calculons les expressions : 
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D'où le tableau : 


3 3 
i=1 i=1 


B — L'opérateur produit 
Pour exprimer un produit d'élément de façon compacte, on utilise l'opérateur produit, 
symbolisé par la lettre grecque majuscule Pi: 


Pi + | | opérateur produit 


Exemple 1 : soit quatre valeurs d'une variable x, indicées par i : xX,, X,, X3, X,. Le 
produit de ces 4 valeurs est donnée par l'expression : 
4 


JIx=xxxxx xx 
i=1 


L'expression de gauche se lit ainsi "produit des x, pour i allant de 1 à 4". Plus 
généralement, pour un produit de n éléments, on écrit : 


n 
FIk=xxe xxx, 
i=1 


Exemple 2 : soit le tableau de valeurs suivant. Calculons les expressions : 
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D'où le tableau : 


29 


onene ) 


Les séries statistiques 
à une dimension 


CHAPITRE 


Fi et graphiques 


Tableaux et graphiques constituent les deux moyens principaux de présentation des 
données statistiques. Etant donné l'abondance des présentations tabulaires et 
graphiques, nous n'étudierons ici que les principales. 


1 ° TABLEAUX 


Un tableau statistique est juste une liste de chiffres relative au caractère de la population 
que l'on souhaite étudier, présentée de façon la plus compréhensible possible. Les 
données peuvent être présentées individuellement, sous forme d'effectifs, de fréquences 
ou de pourcentages et encore de bien d'autres façons. 


Cette section propose d'étudier quelques exemples de tableaux-types, afin de 
familiariser le lecteur avec les modes de présentation les plus fréquents. L'analyse des 
tableaux à deux ou plusieurs caractères est renvoyée à la seconde partie de l'ouvrage. 


A - Tableaux de données qualitatives 


Le tableau (1) ci-dessous indique la répartition par continent des utilisateurs d'Internet 
en 2003. Le caractère étudié — la répartition continentale des utilisateurs d'Internet — est 
qualitatif. || a sept modalités, listées dans la première colonne. La seconde colonne 
indique les effectifs, c'est-à-dire ici le nombre d'utilisateurs d'internet dans chacune des 
zones. La dernière ligne, en caractères gras, indique le total mondial. 


Tableau 1 : Utilisateurs d'Internet par zones géographiques 
(Effectifs en mars 2005) 


Zones géographiques (1) Effectifs en millions 


Asie 302,2 
Europe 259,6 
Amérique du Nord 221,4 
Amérique du Sud/Caraïbes 56,2 
Moyen-Orient 19,3 
Océanie/Australie 16,2 
Afrique 13,4 
Total 883,3 


Source : www.internetworldstats.com/stats 


Note : Pour connaître la liste des pays inclus dans chaque zone, voir la source des données. 
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On prendra soin de toujours indiquer la source des données, afin que l'utilisateur du 
tableau puisse éventuellement s'y référer. Il est également important d'ajouter toute note 
utile pour la compréhension des données. Dans l'exemple des zones géographiques, il 
peut être nécessaire soit d'énumérer les pays qui figurent dans les zones, soit de référer 
à la source (à condition qu'elle le fasse, ce qui est le cas ici, mais il faut le vérifier). 


Remarquons que les données ont été classées, non par ordre alphabétique des zones 
(ce qui est normalement le cas), mais par ordre croissant du nombre d'utilisateurs, ceci 
afin de faire apparaître les zones où l'utilisation d'Internet est la plus répandue. 


Ce tableau peut être complété de plusieurs façons, afin d'en faciliter l'analyse. 


Premièrement, on peut présenter les chiffres en pourcentages, dans une seconde 
colonne, afin de mieux apprécier la part de chaque zone dans le total des utilisateurs. 
C'est ce qui a été fait dans le tableau ci-dessous (colonne 3). 


Deuxièmement, la colonne (4) présente la somme cumulée des pourcentages, de 
façon à mettre en évidence la contribution additionnelle de chaque zone ainsi que la 
concentration des utilisateurs. On voit ainsi que les 3 premières zones (Asie, Europe et 
Amérique du Nord) totalisent 88,7% des utilisateurs, les quatre autres zones (Amérique 
du sud/caraïbes, Moyen-Orient et Océanie/Australie) ne représentent quant à elles que 
100 - 88,7 = 11,3% des utilisateurs. 


Tableau 2 : Utilisateurs d'Internet par zones géographiques 
(Effectifs, pourcentages et pourcentages cumulés en mars 2005) 


en millions cumulés 
Amérique du Nord 88,17 


ue 
[an 
er 


Source : wWww.internetworldstats.com/stats 


Note : Pour connaître la liste des pays inclus dans chaque zone, voir la source des données. 


Troisièmement, il est souvent nécessaire de présenter des données complémentaires, 
quand elles sont disponibles, pour faciliter la compréhension des données principales. 
Ici, par exemple, on peut souhaiter connaître les populations des zones concernées, 
ainsi que la population mondiale, afin de rapporter le nombre d'utilisateurs d'internet à un 
indicateur des utilisateurs potentiels. 
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Le tableau ci-dessous donne le nombre d'utilisateurs d'Internet en pourcentage de la 
population de chaque zone, et la population mondiale de chaque zone en pourcentage de 
la population mondiale totale. Le tableau fournit également, sur la dernière ligne, le 
nombre total d'utilisateurs d'Internet, ce qui permet de retrouver les données brutes en 
multipliant les pourcentages par les totaux de la colonne correspondante. 


Par exemple, si l'on veut retrouver le nombre d'utilisateurs d'internet en Asie, il suffit 
d'effectuer l'opération suivante : 


Nombre d'utilisateurs d'internet en Asie = (34,02/100) * 888,3 = 302,2 
De même, si l'on veut retrouver la population d'Asie, il suffit d'effectuer l'opération suivante: 


Population d'Asie = (9,61/100) * 6411 = 3612 


Tableau 3 : Utilisateurs d'Internet et population exprimés pour chaque zone 
géographique en pourcentage des totaux respectifs (Mars 2005) 


Nombre d'utilisateurs 
d'Internet Population de chaque zone 


en % de la population en % de la population mondiale 
de chaque zone 


Zones géographiques (1) 


RTS ES EE 


Source : wWww.internetworldstats.com/stats 


Note : Pour connaître la liste des pays inclus dans chaque zone, voir la source des données. 


Cette présentation des données d'utilisateurs d'internet et de la population mondiale, ainsi 
que des pourcentages qui en découlent, permet par exemple de faire apparaître que le 
classement par zones des pourcentages d'utilisateurs d'internet n'est pas identique à celui 
du classement par zones des pourcentages de la population mondiale. Par exemple, 
l'Afrique, qui constitue le 3è"e groupe en termes de pourcentage de population, se trouve 
en dernière position pour ce qui est des utilisateurs d'internet. Inversement, l'Amérique du 
Nord, qui est au dernier rang en termes de pourcentage de population, est au troisième 
rang des utilisateurs d'Internet. Le degré de corrélation entre deux variables, ici le 
pourcentage d'utilisateurs d'internet et de la population totale, sera étudié dans la seconde 
partie de ce mémento. 
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B -Tableaux de données quantitatives 
1) Variable quantitative discrète, valeurs connues individuellement 


Exemple : on interroge 100 ménages sur le nombre de pièces de leur logement. La 
variable « nombre de pièces » est quantitative et discrète (les valeurs sont 
dénombrables). En outre, les valeurs, n'ayant pas été groupées, sont connues 
individuellement. On obtient le tableau ci-dessous, où x; représente le nombre de pièces 
et n; les effectifs correspondants : 


Tableau 4 : Nombre de pièces du logement (xj) 


Effectifs (n;) 


40 
20 


2) Variable quantitative discrète, valeurs regroupées 


Exemple : on interroge 100 ménages sur le nombre de pièces de leur logement. La 
variable « nombre de pièces » est quantitative et discrète (les valeurs sont 
dénombrables). Cette fois, les valeurs ont été groupées. On obtient le tableau ci- 
dessous : 


Tableau 5 : Nombre de pièces du logement (x;) 
Groupement par classes 


Lorsque les données sont groupées, il faut porter attention aux crochets (les signes 
« [ » et « ] ») car ce sont eux qui indiquent si les valeurs limites sont incluses ou non 
dans la classe. Par exemple, dans le tableau ci-dessus, le groupe [1-3[ inclut les 
ménages dont le logement n’a qu'une seule pièce (c'est le signe « [ » qui marque 
l'inclusion, mais exclut les ménages qui ont 3 pièces (c'est le signe « [ »). 


La valeur « 3 » ayant été exclue du groupe [1-3[, elle sera nécessairement incluse dans 
le groupe [3-5]. Cela correspond à la propriété évoquée dans le chapitre 1, d’après 
laquelle les modalités d’un caractère (ici les valeurs d’une variable) sont exhaustives et 
incompatibles. 
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3) Variable quantitative continue, valeurs connues individuellement 


Exemple : on dispose d’un échantillon de 122 réponses d'étudiants à la question « À 
quel âge avez-vous obtenu votre bac ? ». Bien qu'il s'agisse d’une variable quantitative 
continue, les données sont présentées par âge et non par groupe d'âge. On a donc le 
tableau ci-après : 


Tableau 6 : Âge d'obtention du bac (x) 
Groupement par valeurs 


4) Variable quantitative continue, données groupées 


Exemple 1 : on dispose d’un échantillon de 122 réponses d'étudiants à la question « À 
quel âge avez-vous obtenu votre bac ? ». Cette fois, les données sont présentées par 


groupe d'âge. 
Tableau 7 : Âge d'obtention du bac (x) 
Groupement par classes 
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2 + GRAPHIQUES 
A - Importance des graphiques 
Il est parfois indispensable de recourir à la présentation graphique des données. Le 


tableau 6 ci-dessous, connu sous l'appellation de quartet d’Anscombe, illustre 
parfaitement ce point. 


Tableau 6 : Séries ayant des moyennes identiques 
(9 pour X et 7,5 pour Y) 


Li 
DETE 


Source : Anscombe, Francis J. (1973) Graphs in statistical analysis. 
American Statistician, 27, 17-21. 


Si l’on calcule les moyennes arithmétiques simples de ces deux séries (voir le chapitre 3 
pour la définition de la moyenne arithmétique simple), on constate que la moyenne de X,;, 
X;, X, et X, est égale à 9, tandis que la moyenne de Y,, Y,, Y;, Y, est égale à 7,5. 


Certes, il s’agit d’une curiosité, mais celle-ci illustre parfaitement que pour décrire une 
série de chiffres (ici deux séries de chiffres), il ne suffit parfois pas de calculer des 
indicateurs numériques. Dans cet exemple, l’usage d’un indicateur simple tel que la 
moyenne dissimule en fait une très grande diversité. 


La figure 1 ci-après montre en fait les nuages de point associés à chacune des séries 
XV}, D}, 0, Ya} et {X4 Ya}. 
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Figure 1 : Séries ayant des moyennes identiques 
mais les nuages de points révèlent des formes extrêmement différentes 


Série 1 Série 2 
14 14 
12 12 
10 10 
, 8 8 
26 Ÿ 6 
4 4 
2 2 

2 4 6 8 10 12 2 4 6 8 10 12 
x “ 

Série 3 Série 4 
14 14 
12 12 
10 10 

8 Ne ; 8 î 

"6 te 6 : 
4 4 
2 2 

2 4 6 8 10 12 2 4 6 8 10 12 
X X 


La présentation des données statistiques sous forme de graphiques joue un rôle 
essentiel pour permettre à un auditoire ou à des lecteurs de suivre une explication. Ne 
dit-on pas qu’un beau graphique vaut mieux qu’un long discours. On dit d’ailleurs que 
Michael DELL est arrivé un jour à une assemblée générale d'actionnaires avec pour tout 
document le graphique qui montrait l’évolution spectaculaire du cours de l’action des 
entreprises DELL au cours des 5 dernières années... 


La diversité des présentations graphiques ne connaît d’autres limites que celles de 
l'imagination. Nous nous bornerons dans les pages qui suivent à passer en revue les 
graphiques les plus connus et les mieux adaptés aux données qu'il s’agit de représenter. 


B - Données individuelles 
Lorsque l'on veut représenter graphiquement toutes les unités statistiques d’une 


population à un caractère ou à une variable, on dispose de deux graphiques : la ligne et le 
graphique dit « tige et feuilles » (de l’anglais « stem and leaf »). 


1) La ligne 
Exemple 1 : Soit la série de chiffres : 


{8, 2,3, 7,4} 
où aucune unité n’a la même valeur. 
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On obtient alors la représentation graphique suivante : 


Figure 2 : Représentation graphique en ligne quand les unités statistiques sont peu 


nombreuses et connues individuellement et non répétées. 


En revanche, si certaines données sont répétées, comme dans l'exemple ci-dessous, il 
faut passer à une représentation des données sous forme groupée, ce qui est l’objet de 
la partie C de cette sous-section 2. 


Exemple 2 : Soit la série de chiffre où le 7 et le 2 sont répétés 2 fois : 


{8, 2,3,7,4,7, 2} 


Figure 3 : Représentation graphique quand les unités statistiques sont peu 


nombreuses et connues individuellement mais répétées. 


Remarques : 


1) À la représentation en ligne horizontale, on peut parfois préférer une représentation 
en ligne verticale. 


2) Cette représentation en ligne peut être raffinée, pour donner naissance à un 
graphique analytique, dit « boîte à moustaches » (de l'anglais « Box and Whiskers »), 
que nous aborderons dans le chapitre 4, car sa compréhension nécessite l'acquisition 
de notions telles que la médiane et les quartiles. 


2) Le graphique « tige et feuilles » 


Ce graphique très original consiste à empiler des unités en conservant leur identification 
(un numéro, un nom, etc.). De cette façon, aucune donnée initiale n’est absente du 
graphique et chacune peut facilement être repérée. 
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Exemple 1 : Soit 20 personnes, repérées par un numéro de 1 à 20, à qui des notes 
allant de 0 à 5 ont été attribuées. 


Notes = {{0, 12}, {0, 14}, {1, 7}, {1, 9}, £1, 13}, {1, 18}, {2, 4}, {2, 8}, { 2, 11}, {2, 15}, {2, 
16}, {3, 17}, {3, 12}, {4, 5}, {4, 6}, 4, 20}, {5, 3}, {5, 19}} 


Dans chaque couple de données, le premier chiffre correspond à la note (de 0 à 5), c'est 
la « tige » et le second sert à identifier la personne par un numéro allant de 1 à 20, c’est 
« les feuilles ». La représentation tiges et feuilles donne la figure 4. 


Figure 4 : Diagramme « tige et feuilles » 


Personnes identifiées 
par leur numéro de 1 à 20 


Notes de0à5 


0 1 2 3 4 
C - Données groupées par modalités ou valeurs 


Que les données soient regroupées par modalité, comme c’est le cas pour les 
groupements qualitatifs, ou par valeurs, comme c’est le cas pour les groupements 
quantitatifs, on dispose de nombreuses représentations graphiques. Nous limiterons 
notre présentation aux plus connues, à savoir : le diagramme en bâtons, le diagramme 
en barres et le nuage de points, de l'anglais « scatter plot ». 


1) Diagramme en bâtons 


C'est peut-être la représentation la plus simple qui soit. En réalité, le diagramme en 
bâtons s'inspire directement de la présentation tige et feuilles, mais le contenu en 
information est moins riche. 


Exemple 1 : On interroge 11 personnes sur leurs préférences concernant les 4 produits 
A,B,C,D. Chaque personne doit choisir seulement un produit. On obtient les résultats 
groupés suivants : 


{{A, 4}, {B, 4}, {C, 1}, {D,1}} 


Dans chaque couple de données, le premier chiffre correspond au produit (A,B,C,D) et 
le second correspond au nombre de personnes qui ont choisi ce produit. La figure 5 (a) 
illustre le résultat. 
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Si le regroupement se fait par valeur, on a par exemple les couples : 
{{1, 4}, €2, 4}, 43, 1}, 4, 1} 


Où le premier chiffre de chaque couple correspond par exemple au nombre d'enfants. 
On obtient alors le graphique de la figure 5(b). 


Figure 5 : Diagrammes en bâtons 


(b) Valeurs 
= nombre d'enfants 0,1,2,4 


(a) Modalités = 
Produits A,B,C,D 


£ A 
= = 
Ë 5 
F= = 
LL [un 


À BC D Modalités 1 2 3 4 Valeurs 


2) Diagramme en barres 


Le diagramme en barres repose sur le même principe que le diagramme en bâtons, 
sauf qu’au lieu de bâtons, on a des barres rectangulaires de base identique et 
identiquement espacées les unes des autres. La taille de la base, ainsi que celle de 
l’'espacement n'ont pas de signification particulière. L'espacement n'est pas obligatoire. 
La figure 6 représente les mêmes données que la figure 5, mais ces données sont 
exprimées en pourcentage. 


Figure 6 : Diagramme en barres verticales 


gé (a) Modalités = 
Produits A,B,C,D 


(b) Valeurs 
= nombre d'enfants 0,1,2,4 


Pourcentages 


15 15 


Pourcentages 


10 10 


E € D 1 2 8 4 


Modalités Valeurs 
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Le diagramme en barre est souvent présenté de façon horizontale. Ainsi, le graphique 
de la figure 6 peut-il être présenté ainsi : 


Figure 7 : Diagramme en barres horizontales 


8 a 
E 3 (a) Modalités = 3 5 (b) Valeurs 
2 Produits A,B,C,D S = nombre d'enfants 0,1,2,3 
= 2 2 
1 1 
0 0 
Pourcentages Pourcentages 


3) Nuage de points dans le cas d’une série unidimensionnelle 


Pour des raisons pédagogiques, la figure 2 de ce chapitre a présenté des graphiques 
sous forme de nuages de points concernant des variables bidimensionnelles. Il y avait 
deux séries, et chaque point avait pour coordonnée un élément de chaque série. Mais le 
nuage de points peut aussi être employé pour représenter graphiquement une simple 
série de chiffres. Les données des figures 5 à 7 peuvent également être représentées 
par un nuage de points ou par une ligne joignant ces points (voir la figure 8, qui reprend 
les données précédentes dans l'hypothèse quantitative.) 


Figure 8 : Nuage de points, reliés et non 
reliés — nombre d'enfants par foyer 


Fe 
[e] 


(b) Nuage de \ 


(a) Nuage de points 
Points reliés 
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D - Camembert ou graphique « en tarte » ? 


Les anglo-saxons l’appellent « Pie Chart » c’est-à-dire, littéralement « graphique en 
tarte ». En France, on l'appelle le camembert. Ce graphique universel convient à toutes 
les données, dès l'instant où il s’agit d'exprimer des parts ou des pourcentages. 


Exemple : Soit les chiffres d’affaires en millions d'euros des quatre principales 
entreprises du marché d'un produit (pour simplifier, on suppose que ces entreprises 
contrôlent la totalité du marché) : 


Tableau 7 : Chiffre d’affaires en millions d'euros de 
quatre entreprises qui contrôlent un marché 


Chiffre Part de 
d’affaires marché 


La part de marché (colonne 3) n’est en fait qu’un pourcentage. Chaque ligne de la 
colonne 2 est divisée par la dernière ligne (total) et multipliée par 100. 


Notons qu'il s’agit d'un caractère qualitatif, les modalités étant les quatre entreprises. 
Pour faire le graphique en camembert, il reste à calculer la part que le chiffre d’affaires 
de chacune de ces entreprises représente dans 360° (voir le tableau 8 ci-dessous). 


Tableau 8 : Chiffre d’affaires en millions d'euros de 
quatre entreprises qui contrôlent un marché 


Part de Denis 
marché g 
31,25 (31,25 *360) / 100 = 112,5 


43,75 (43,75 *360) / 100 = 157,5 
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La dernière colonne du tableau 7 va nous permettre de dessiner le camembert, puis de 
« couper les parts ». Il suffit pour cela de tracer un cercle, puis au moyen d’un 
rapporteur, de déterminer les angles correspondant à chaque part. On obtient alors le 
résultat voulu. La figure ci-dessous illustre 2 variantes du même graphique. Dans la 
seconde variante, l’entreprise qui a la part de marché la plus élevée est détachée du 


lot. 
Figure 9 : Le camembert ou « pie chart » 


\ N\ 
/ \ AGT25%)  \ \ \ A(3125%) \ 
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/ | \ } 
La j \ \D(1875%) / 
\D(8.75%) / \| en 
\ F ; \ À # 
c \ Me C \ 
\ # he à" 
(6,25%) (6,25%) 


Le camembert peut aussi servir à représenter des variables quantitatives, y compris des 
variables quantitatives groupées par classes. 


E - L'histogramme 


L'histogramme convient particulièrement aux variables quantitatives quand celles-ci 
sont regroupées par classes. Parfois les classes ont des amplitudes égales. C'est le cas 
le plus évident. Parfois, cependant, les amplitudes des classes sont différentes. Il faut 
alors opérer une correction en suivant la méthode indiquée ci-après. 


Exemple 1 : Soit 100 ménages distribués selon leur revenu mensuel en euros. On 
définit des classes d’amplitudes égales à 1 500 euros. 


CI d 
Tableau 9 : Répartition Fee 9 ce TeNenu 
d’un échantillon de 100 


ménages par classe de 
revenu mensuel [1500;3000[ 

(amplitude de classe = 
1 500 euros) ee 
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L'histogramme peut-être construit à partir des effectifs (les n;) ou à partir des fréquences 
(et d’ailleurs aussi en prenant les pourcentages). Contrairement au diagramme en 
barre, avec lequel il ne faut pas le confondre, les rectangles qui composent 
l’'histogramme ont une base qui est définie par l'amplitude de la classe qu'ils 
représentent et, de plus, ils sont collés les uns aux autres. 


Figure 10 : Histogramme correspondant aux 
données du tableau 9 


0 1500 2000 4500 6000 


Exemple 2 : Supposons que l’on regroupe les données de l'exemple 1 en classes 
d’amplitudes inégales ([0-1500f[;[1500-45001[,[4500-6000f). 


Il faut dans ce cas effectuer une correction pour tenir compte des différences 
d'amplitude. || convient en fait de diviser la fréquence de chaque classe par l'amplitude 
correspondante. On obtient ainsi l'amplitude corrigée (h). 


Tableau 10 : Calcul de l'amplitude corrigée 


i 


[0:1500[ 1500 0,00013 
[1500:4500[ 3000 0,00023 
[4500;6000[ 1500 0,1 | 0,00007 


Sur l’histogramme de la figure 11, on aura donc l’amplitude corrigée en abscisse et des 
classes d’inégales amplitudes en ordonnée. 
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Figure 10 : Histogramme avec amplitudes inégales 
(voir le tableau 10 pour les calculs) 
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F - L'utilisation des graphiques à des fins de comparaisons 


C'est dans les possibilités de comparaisons qu'ils offrent que les graphiques sont 
particulièrement utiles : comparaisons dans le temps, comparaisons spatiales, etc. 


1) Le radar, excellent moyen d'effectuer des comparaisons visuelles 


La figure 11 utilise le graphique dit « en radar » afin de comparer la répartition réelle des 
parts de marché des 4 entreprises À, B, C et D avec une répartition égalitaire où 
chacune aurait 25% du marché (cette répartition égalitaire est représentée par le 
losange en pointillé). Les parts de marché réelles sont indiquées sur chaque axe. On 
voit ainsi immédiatement que A et B ont une part de marché supérieure à la répartition 
égalitaire et B et C une part de marché inférieure. On peut à partir de là calculer 
combien il faut retrancher à A et à B (et combien par conséquent il faut redistribuer à C 
et D) pour revenir à une répartition égalitaire). 


Figure 11 : Le graphique en radar pour représenter et comparer les parts 
de marché des entreprises du tableau 7 
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2) Comparaisons dans le temps 


Il est facile de voir que le graphique en radar permet aussi de comparer les parts de 
marché des quatre entreprises A,B,C et D du tableau 7 en deux, voire trois ou quatre 
points du temps. On aboutirait ainsi à une « toile d’araignée » dont la complexité irait 
cependant grandissante avec le nombre d'années. Il est sage de se limiter à une 
comparaison de deux périodes. 


Toutefois, le radar n’est pas le seul moyen d'effectuer des comparaisons temporelles, 
loin de là. La figure 12, ci-dessous illustre une façon très simple (et malheureusement 
très réaliste) de comparer deux situations éloignées dans le temps. 


Reculs du développement 


Figure 12 : Une façon très simple 


de représenter l’évolution du humain 
développement humain sur une Indicateur du 
décennie pour quatre pays peu développement humair 


développés. Ces quatre pays sont 

les seuls pour lesquels l'indice du 

développement humain a régressé "Nr E 
Fédération 


au cours de la décennie 1990. 0,800 ee = ! 

de Russie 
0,700 =. Moldavie 
as LE Botswana 
0,600 


Source : PNUD, Rapport sur le 

développement humain 2003, p. 40. Sur la D 

méthode de calcul de l'indicateur du 0,500 Lesotho 
développement humain, voir le chapitre 7 
de ce mémento. 


0,900 


1990 2001 


3) Les graphiques de séries chronologiques 


Pour les comparaisons dans le temps, rien ne remplace cependant la série 
chronologique. Typiquement, les années sont en abscisse et la valeur qui évolue dans 
le temps est en ordonnée. 


Les graphiques de séries chronologiques sont parmi les plus fréquents. Selon Edward 
R. TUFTEU), qui a procédé à un tirage aléatoire de 4000 graphiques dans 15 
magazines et journaux entre 1974 et 1980, il apparaît que plus de 75% d’entre eux sont 
des graphiques de séries chronologiques. 


Le graphique de la figure 13 ci-après représente l’évolution de la population mondiale 
telle qu’elle a été reconstituée (pour les données les plus éloignées) et projetée (pour 
les données futures) par les démographes de la division de la population de l'ONU. 


(1) Edward R. TUFTE, The Visual Display of Quantitative Information, Graphics Press, LLC, 2001, page 25 
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Figure 13 : Évolution de la population mondiale de 1750 à 2150 (projection) 
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4) Un beau graphique vaut parfois mieux qu‘un long discours 


Rien ne vaut un graphique lorsqu'on veut mettre en valeur une comparaison 
saisissante. La figure 14, par exemple, illustre de façon éclatante l’inefficacité (pour ne 
pas dire plus) de la répartition des aides dans le monde. On y voit que les subventions 
annuelles de l’Union Européenne par vache (et par an), sont presque deux fois 
supérieures au revenu moyen par habitant (et par an) en Afrique subsaharienne. Ce 


n’est pas les agriculteurs qui s’en plaindront. 


Figure 14 : Un beau graphique vaut mieux qu’un long discours 
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Africain 


Subventions Revenu moyen Aide annuelle 
annuelles de en Afrique versée par l'Union 
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pour les produits l'Afrique 
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Source : PNUD, Rapport sur le développement humain 2003, 
p. 155. 
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5) Les graphiques d'indices 


Les indices se prêtent également particulièrement bien aux comparaisons sous forme 
graphique. Sans entrer dans le détail de leur étude (que nous réservons au chapitre 7), 
donnons-en une définition simple et illustrons-la par un exemple. 


Un indice est un rapport de grandeurs exprimées dans la même unité, ce qui en fait un 
nombre sans dimension. Généralement, ce rapport est multiplié par 100. Lorsque l’on 
divise tous les éléments d’une série chronologique par l’un d’entre eux (et que l’on 
multiplie par 100) on transforme la série chronologique en indice. Ceci facilite les 
comparaisons avec une années de référence, laquelle aura alors pour valeur 100. 


Exemple : Soit la série chronologique suivante qui indique le nombre d'avions d’un 
certain modèle, vendus par une grosse firme aéronautique. 


Tableau 11 : Ventes annuelles d’un certain modèle d’avion 
1997 1998 1999 2000 2001 2002 2003 2004 2005 


CORSESESREESNRSNEEEERE 


La représentation graphique de base est celle d’une sérié chronologique. Toutefois, si 
on divise tous les chiffres par ceux de l’année 1997, « année de base » (et que l’on 
multiplie par 100) on obtient une série indice. La figure ci-dessous représente, outre la 
série initiale, trois choix d'indice : 1997, 2000 et 2005. À noter que le passage à un 
indice ne modifie que l'échelle de l’ordonnée, non la forme de la courbe. 


Figure 15 : Une série chronologique transformée en séries indicées 
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6) Les échelles semi-logarithmiques 


Les échelles arithmétiques ne sont pas toujours les plus adaptées à la représentation 
graphique des caractères continus. Dans l'exemple suivant, les entreprises A et B ont 
augmenté leur production dans des proportions différentes et pourtant le graphique 
donne l'impression que la progression est identique en raison du parallélisme des 
progressions. 


Figure 16 : Sur une échelle arithmétique les progressions parallèles 
semblent identiques 
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Pour remédier à cela, on peut prendre une échelle « semi-logarithmique » pour l'axe des 
ordonnées. Cela consiste à prendre le logarithme base 10 des valeurs en ordonnées. 
On obtient alors deux droites qui ne sont plus parallèles. La droite A est plus pentue, ce 
qui traduit une plus forte progression. 


Tableau 12 : Quelques exemples de conversions de chiffres en 
logarithme décimal (de base 10) 


EE EN CS CE 


log 10=1 log 100 =2 | log 200 =2,3 | log 300 = log 400 log 500 
2,477 =2,602 =2,698 
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Figure 17 : Sur une échelle logarithmique les différences de vitesse de 


progression se traduisent par des pentes différentes 
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CHAPITRE 


Le caractéristiques de tendance centrale 


Qu'’elles soient non groupées ou au contraires groupées par valeurs ou par classes, 
les variables quantitatives peuvent être utilement résumées par des caractéristiques 
dites de « tendance centrale ». Ces nombres résumés sont ainsi appelés car ils 
privilégient les valeurs principales de la distribution, au détriment par exemple de ceux 
qui caractérisent la dispersion ou la concentration des valeurs d’une série. 


Ces valeurs centrales sont les moyennes, la médiane et le mode. Nous exposerons leur 
mode de calcul et leur signification en distinguant pour chacune d'elles le cas des 
données non groupées et le cas des données regroupées (soit par valeurs, soit par 
classes). 


1 ° LES MOYENNES 


A - La moyenne arithmétique 


1) La moyenne arithmétique simple 


Exemple : Soit la série de chiffres {8, 5, 9, 13, 25}. La moyenne arithmétique de cette 
série de chiffres se calcule ainsi : 


a 8+5+9+13+25 60 
5 5 


= 12 


Comme nous l’avons indiqué dans le chapitre 1, nous ne distinguerons pas la moyenne de 
la population et la moyenne de l'échantillon. Par conséquent, nous traitons ici la série de 
chiffres sans nous préoccuper de savoir s’il s’agit d’une population ou d’un échantillon. 


Signification de la moyenne : Construisons un tableau avec pour première colonne la 
série de chiffres et pour seconde colonne l'écart de chacun des chiffres à la moyenne que 
nous venons de calculer (x = 12) : 


Tableau 1 : La somme des écarts 
à la moyenne est nulle 
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Quand on soustrait la moyenne arithmétique à chacun des chiffres de la série, on observe 
la propriété suivante : 


1) La somme des écarts à la moyenne est nulle : 


(46-763) (+1)+(+13)-0 


2) Ou, ce qui revient au même, mais est plus imagé, la somme des écarts positifs est égale 
à la somme des écarts négatifs, au signe près. 


Schéma 1 : En valeur absolue, la somme des écarts négatifs (panneau de gauche) 
est égale à la somme des écarts positifs (panneau de droite) 


[ À \ [ di \ 
(4) @) (3) NORD? 
ci 


Moyenne arithmétique : 12 


Formule générale de la moyenne arithmétique simple : Soit {x,, x, ....,x,} une 
série de chiffres. La formule de la moyenne arithmétique de cette série est donnée par : 
- 1< 
X=—Ù x, (1) 
ni 


2) La moyenne arithmétique pondérée 
Exemple 1 : Soit la série de chiffres {8, 13, 5, 8, 5, 9, 13, 25, 13, 9}. Certains chiffres, 
comme le 8, le 9 ou le 13 sont répétés. On peut simplifier la présentation en regroupant 


les données par valeurs (voir le tableau 2). La troisième ligne est le produit des deux 
premières. En effet, on a par exemple : 


X,=5 n, =2 n,-X,=2x5=10 
X, =8 n, =2 n,:X, = 2x8 =16 


Et ainsi de suite (voir le tableau 2). 
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| Tableau 2 : Calcul de la moyenne arithmétique pondérée | 


La moyenne pondérée se calcule alors en faisant la somme pondérée c’est-à-dire la 
somme des n;,:x;et en divisant par n. Elle est égale à : 


_(5*2)+(8x2)+(9x2)+(18x2)+(25x1) _ 108 


10,8 
10 10 
Formule générale de la moyenne arithmétique pondérée : Soit {x;, X,, ....,x}} une 
série de chiffres et {n,, n,, .…..,n.} les effectifs correspondants. La formule de la moyenne 


arithmétique pondérée de cette série est donnée par : 


Dn-x) (2) 


Exemple 2 : Soit la série de chiffres {8,13,5,8,5,9,13,25,13,9,35,44,54,28}. Supposons 
que l’on regroupe les valeurs en 3 catégories comme dans le tableau 3 ci-dessous. 
Dans ce cas, il faut calculer le centre de chaque classe, c;, c’est-à-dire la somme des 
extrémités de classe divisée par 2 et appliquer la formule de la moyenne pondérée. 


Tableau 3 : Calcul de la moyenne arithmétique 
quand les valeurs sont groupées par classes 


ss | ss | * | 


so 
pesat x 
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On applique donc la formule (2), mais en remplaçant x, par c; : 


Dans notre exemple, on a donc : 


= _(6*9)+(8x7,5)+(5x41)_54+225+205 _ 2815 


= 20,11 
14 14 14 


3) La moyenne élaguée 


Exemple : Soit la série de notes d’un élève au cours de l’année {12, 13, 11, 14, 2}. Si 
l’on calcule la moyenne arithmétique simple on obtient : 


x - ENST LE h . _ 10,4 


Par contre, si on retire le « 2 » et que l’on recalcule la moyenne élaguée sur 4 notes, on 
obtient : 


-_12+18+11+14 | 50 


2426 
4 4 


Dans ce cas, on a retiré le « 2 », qui est considéré comme un accident, mais qui, si on le 
maintient dans la série, fait fortement baisser la moyenne. Dans certains cas, on retire 
les valeurs extrêmes et on calcule la moyenne uniquement sur un intervalle de valeurs 
élagué, conformément au schéma 2 ci-dessous. Le principe est identique quand les 
données sont groupées par valeurs ou par classes. 


| Schéma 2 : La moyenne élaguée 


Intervalle élagué 
On a exclu : è 


or 11,12,13,14 
arbitrairement > 2 


le 2 | 
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B - La moyenne quadratique 


1) La moyenne quadratique simple 


Exemple : Soit la série de chiffres {-4, -2, 0, 2, 4}. Si l'on calcule la moyenne 
arithmétique simple on obtient zéro. 


Parfois, on souhaite obtenir une caractéristique de tendance centrale ayant une valeur 
positive là où le calcul de la moyenne arithmétique simple aurait donné zéro. On calcule 
alors la moyenne quadratique simple en additionnant le carré de toutes les valeurs de 
la série et en prenant la racine carrée du total. Autrement dit, dans notre exemple : 


Q- J 4ÿ +(-2Ÿ - Q) +(2) +(4Ÿ feat , _ _ JE = 283 


Formule générale de la moyenne quadratique simple : Soient {x;, X,, ....,x.} une 
série de chiffres. La formule de la moyenne quadratique simple de cette série est 
donnée par : 


a- 5x (4) 
ni 
2) La moyenne quadratique pondérée 
Soit {x4, X2, .…..,xn} Une série de chiffres et {n,, n,, ....,n;} les effectifs correspondants. 


La formule de la moyenne quadratique pondérée de cette série est donnée par : 


Exemple : Soit le tableau 4 ci-dessous : 


Tableau 4 : Calcul de la moyenne quadratique pondérée 


: 2 2 : 
Il suffit de rajouter deux colonnes, une pour X etune pour /;:X (voir le tableau 5) 
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Tableau 5 : Calcul de la moyenne quadratique pondérée 


4 
=1 
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(n,-x?)=10554 


Lorsque les valeurs sont regroupées en classes, il faut calculer les centres de classes et 
appliquer ensuite la formule (5) en remplaçant x, par c.. 


C- La moyenne géométrique 
1) La moyenne géométrique simple 


Soit {X4, X2, ....,x,} une série de chiffres. La formule de la moyenne géométrique 
simple de cette série est donnée par : 


G= T1 l (6) 


Exemple : Soit la série de chiffres {8, 5, 9, 13, 25}. La moyenne géométrique de cette 
série est égale à : 


G=[8x5x9x13x25]5 - Ÿ117000 = 10,32 


2) La moyenne géométrique pondérée 


Soit {X4, X2, .…..,xX,} Une série de chiffres et {n,, n,, ....,n.} les effectifs correspondants. 
La formule de la moyenne géométrique pondérée de cette série est donnée par : 


c- I] x l (7) 
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Exemple : Soit les chiffres du tableau 4 


Pour calculer la moyenne géométrique pondérée, on peut passer par les logarithmes 
népériens (In) : 


[ 


; 
h : 1 

| x | = [25056018 an Dar 
i=1 


nG==[10n25 +-161n8+251n4 + 20In12] 


INnG = 32,1888 + 32,2711+34,6574 + 49,6981] 


2 
71 
_ 149,815 


InG = 2,1100704 


G = e21100704 = 8,2488 


D - La moyenne harmonique 
1) La moyenne harmonique simple 


Soit {xX, X2, ..., x,} une série de chiffres. La formule de la moyenne harmonique 
simple de cette série est donnée par : 


n 
He (8) 


1 XX; 


Exemple : Soit la série de chiffres {8, 5, 9, 13, 25}. La moyenne harmonique de cette 
série est égale à : 


n 5 5 
H = = L z 9,04 
DE LR PAL 1 1 0,5530342 
= X; 8 5 9 13 25 
2) La moyenne harmonique pondérée 
Soit {X4, X>, .…..,x,} Une série de chiffres et {n,, n,, ...,n.} les effectifs correspondants. 


La formule de la moyenne harmonique pondérée de cette série est donnée par : 


En (9) 
Lx 
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Exemple 1 : Soit les chiffres du tableau 4. Pour calculer la moyenne harmonique 
pondérée, on applique la formule (9). 


n 71 L 71 DE: 
JS 10,16,25,20 04+2:625:166667 103167 


H= = 6,882 


x 225. do 12 


Î= 


Exemple 2 : Une petite usine abrite 2 machines. La première machine a produit 500 
pièces à la vitesse de 100 pièces par heure. Une seconde machine a produit 300 pièces 
à la vitesse de 60 pièces par heure. Calculer la vitesse moyenne (exprimée en nombre 
de pièces par heure) de production dans l'usine. 


Vitesse moyenne = nombre total de pièces produites/nombre d'heures de production. La 
première machine a produit 500 pièces en (500/100) heures (5 heures) La seconde 
machine a produit 300 pièces en (300/60) heures (5 heures). La vitesse moyenne est 
donc donnée par : 


à : 800 _ 800 . 
vitesse moyenne — 300, 300 ho 80 pièces/heure 
100 60 
= a Te = 
x F2 


2 + LA MÉDIANE 


La médiane d’une série est la Valeur qui partage cette série, préalablement classée, en 
deux séries aux effectifs égaux. Dans la première série, on trouve les valeurs inférieures 
à la médiane. Dans la seconde série on trouve les valeurs supérieures à la médiane. 


La médiane ne se calcule que pour les données quantitatives et son mode de calcul 
dépend du type de données. On distinguera quatre cas : 

— les séries non groupées dont l'effectif est impair et où aucune valeur n’est répétée, 

— les séries non groupées dont l'effectif est pair et où aucune valeur n’est répétée, 

— les séries groupées par valeurs, 

— les séries groupées par classes de valeurs. 
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A - Calcul de la médiane : effectif impair et aucune valeur n'est répétée 


C'est le cas idéal, celui qui permet le mieux de comprendre c’est qu'est la médiane. 


Exemple : Soit la série de 5 chiffres suivants : {8,5 9, 13, 25} 
Pour trouver la médiane, il faut : 


a) Classer la série par ordre croissant des valeurs  {5,8, 9, 13, 25} 


b) Localiser la valeur qui partage l'effectif total en deux sous effectifs égaux en appliquant 
la formule (n+1)/2, c'est-à-dire ici (5+1)/2=3. La troisième valeur de la série est le 9. 


(5 81) 
7 Î à Sous-effectif des valeurs 


médiane supérieures à la médiane 


Sous-effectif des valeurs 
inférieures à la médiane 


On vérifie qu'il y autant de valeurs inférieures à la médiane qu'il y a de valeurs 
supérieures à la médiane. L’effectif total est bien partagé en deux parties égales. 


B - Calcul de la médiane : effectif pair et aucune valeur n'est répétée 
Quand l'effectif est pair, la médiane n’est pas une valeur de la série. 1l faut la calculer. 
Exemple : Soit la série des 8 chiffres suivants : {13,1,9,10,2,4,12,7} 


Pour trouver la médiane, il faut : 
a) Classer la série par ordre croissant des valeurs {1,2,4,7,9,10,12,13} 
b) Appliquer la formule (n+1)/2, c'est-à-dire ici (8+1)/2=4,5. Ceci nous indique que 


l'intervalle médian est constitué par les 4°" et la 5è"e valeurs. La médiane est donc 
égale à la moyenne arithmétique simple de ces deux valeurs : 


Me=(7+9)/2=8 


ETOE 25} 


Sous-effectif des valeurs à 


A à Sous-effectif des valeurs 
inférieures à la médiane Médiane 


supérieures à la médiane 


On vérifie qu'il y autant de valeurs inférieures à la médiane qu'il y a de valeurs 
supérieures à la médiane. L'effectif total est bien partagé en deux parties égales. 
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C - Calcul de la médiane : effectifs groupés par valeurs 


Dans ce cas, la procédure ne permet pas toujours de partager l'effectif total en deux 
parties égales. 


Exemple : Dans le tableau 6 ci-dessous, les valeurs de la variable X ont déjà été classées 
La troisième colonne est celle des fréquences (f;) et la quatrième est celle des fréquences 
cumulées F(x). La cinquième colonne, séparée du tableau, est celle des effectifs cumulés 


NGO. 


Tableau 6 : Calcul de la médiane quand les données sont groupées par valeurs 
F(x) 


0,066 | 0,066 
0,167 
0,3 


0,133 


se fours + 
Ù 
02 3 
0,033 


0,067| 1 | 


ee 


© 
OS | 
= | o 
SN 


Pour déterminer la médiane, on repère 0,5 dans la colonne des fréquences cumulées 
F( ou bien n/2 dans la colonne des effectifs cumulés N(x). On choisit ensuite la valeur 
F(xX) égale ou immédiatement supérieure à 0,5 (ou la valeur N(x) égale ou 
immédiatement supérieure à n/2) et l’on suit le sens des flèches comme indiqué sur le 
tableau 6. Dans notre exemple, il n'y a pas de valeur F(x) égale à 0,5, la valeur 
immédiatement supérieure à 0,5 est 0,6 (et la valeur immédiatement supérieure à 
n/2=30/2=15 est 18). Par conséquent, en suivant les flèches, on remonte à la valeur qui 
correspond à la médiane, soit 11. On remarque alors que la médiane ne sépare pas 
l’effectif en deux parties égales. En effet, il y a 13 valeurs qui sont inférieures à 11 (soit 
43,3% de l'effectif) et 12 valeurs qui sont supérieures à 11 (soit 40% de l'effectif). En 
outre, que faire des 5 valeurs qui sont exactement égales à 11 (16,6% de l'effectif total). 
Faut-il les compter dans l'effectif des valeurs inférieures à la médiane ou dans l'effectif 
des valeurs supérieures à la médiane ? Il n’y a pas de réponse à cette question, chacun 
fait comme il l'entend (1) 


(1) La méthode de calcul de la médiane proposée ici est celle décrite par Bernard PY, dans son ouvrage 
Statistiques descriptives, Éditions Economica, page 76. 
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Détermination graphique. La figure 1 ci-dessous illustre la détermination de la médiane à 
partir à partir de N(x), la courbe cumulative des effectifs. Cette courbe « en escalier » a 
pour ordonnée les effectifs dont la valeur est strictement inférieure à x. Par exemple, 
l'effectif des valeurs strictement inférieures à 11 est égal à 13. De même, l'effectif des 
valeurs strictement inférieures à 12 est égal à 18. 


Figure 1 : Détermination graphique de la médiane 
à partir de la courbe cumulative des effectifs 


27 a 

21 — 

18 — 
n/2=30/2=15 = 


L L 1 L 
2 ë 4 dÙ (12 15 15 15 X; 
*— Médiane 


Pour trouver la médiane, il faut localiser n/2=30/2=15 sur l’axe des ordonnées, puis tracer 
une flèche horizontale jusqu’au point M. Une fois au point M, il faut tracer une flèche 


verticale en direction de l’abscisse. On lit alors la valeur de la médiane qui, dans notre 
exemple, est égale à 11. 


D - Calcul de la médiane : effectifs groupés par classes de valeurs 


Dans ce cas, le calcul de la médiane nécessite d'appliquer la formule suivante : 


ñ, (10) 
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OÙ: x, = Borne inférieure de la classe médiane. 


N(%.:) = Effectif cumulé strictement inférieur à X 


X;,= Classe médiane a, = Amplitude de la classe médiane 
Exemple : Dans le tableau 7 ci-dessous, les valeurs de la variable X du tableau 6 ont été 
groupées par classes de valeurs d’amplitudes égales (la procédure est la même si les 
classes sont d’amplitudes inégales). 


Tableau 7 : Valeurs groupées par classes de valeurs d'amplitude égales | 


Appliquons la formule (10) en l’interprétant par rapport à la figure 2 qui représente le cumul 
des n; en ordonnée [soit N(x)] et x, en abscisse : 


Se 
Il 
LP. 

ER 
+ 
fs) 
x 


30 E a, =5 
N(x)=27 & 
Classe médiane 
A («i») 
La classe médiane 
est indiquée par la flèche qui 
5 D Ashoneseronne RAR NET Sun oo nd 


10< x, <15 


5 x" =10 15 20 
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3 ° LE MODE 


Le mode d’une série est la valeur la plus fréquente de cette série. Une série peut avoir 
plusieurs modes. Le calcul dépend du type de données. Prenons quelques exemples. 


A - Calcul du mode : série simple, aucune valeur n'est répétée 


Exemple : Soit la série de chiffres {8,5 9, 13, 25} 


Il n'y a pas de mode car chaque valeur n'est répétée qu’une fois (la fréquence de 
chaque valeur est égale à 1). 


B — Calcul du mode : effectifs groupés par valeurs 


Exemple : Soit la série de chiffres {8, 8, 8, 7, 4, 4, 4,4, 4,5 ,5, 5, 5, 6} 


La valeur la plus fréquente est le 4. Un diagramme en bâtons comme celui de la figure 3 
permet de confirmer que le 4 apparaît 5 fois. C’est donc la valeur modale. 


Figure 3 : Détermination de la valeur modale 


S 


Effectifs 


Mode 
en 


C - Calcul du mode : effectifs groupés par classes d'amplitudes égales 


Exemple : Soit le tableau 7 où des données sont présentées par classes d’amplitudes 
égales. 


Dans ce cas, pour calculer le mode, il faut appliquer la formule suivante : 


d 
Mode = x" + a—1 (11) 
d, +d, 
de — Borne inférieure de la classe modale a = Amplitude de classe 


dy=n;-ni et d,=n;-n;: 
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Appliquons la formule (11) en l’interprétant par rapport à la figure 4 qui représente 
l'histogramme correspondant au tableau 7 (en ordonnée on a les n; et en abscisse on a les 
classes de valeurs d'amplitudes égales). 


Figure 4 : Calcul du mode quand les classes sont d’égales amplitudes 
a=5 
I ——— 
n,=18 + 
Classe modale 
(«i») 
d,=n;-n;4=18-7=11 
d,=n;-n,,,=18-3=15 
Mal 
N1=3 À 
X; 
5 x =10 15 20 
inf d 11 
Mode = x" +a—}=10+5%x =12,115 
d,+d, 11+15 


D - Calcul du mode : effectifs groupés par classes d'amplitudes inégales 


Exemple : Soit le tableau 8 où des données sont présentées par classes d’amplitudes 
inégales. 


| Tableau 8 : Valeurs groupées par classes de valeurs d’amplitudes inégales | 
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Dans ce cas, pour calculer le mode, il faut appliquer la formule (11), mais la définition de 
d, et de d, change, car il faut remplacer les effectifs n, par les amplitudes corrigées 
h;=n/a,. On a donc, en suivant par rapport à la figure 5 qui représente l'histogramme 
correspondant au tableau 8 (en ordonnée on a les n/a; et en abscisse on a les classes 
de valeurs d’amplitudes inégales). 


Figure 5: Calcul du mode quand les classes sont d’inégales amplitudes 


a, =2 
4.5 
r 
d,=h;-h;,,=4,5-1,5=3 
d,=h-h,,=4,5-0,9=3,6 4 
1.5 
1.9 
x=10 12 20 
h.,=n,4/a,,=9/10= 0,9 h=n/a=9/2=4,5 h,4=n,/a,1=12/8=1,5 
d,=h-h, = 4,5-0,9=3,6 d,=hhi,, =4,5-1,5=3 


et Mode = x" +a,—1=10+2x 20 = 11,09 
3,6+3 
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4 e COMMENT CARACTÉRISER LA FORME D'UNE DISTRIBUTION À L'AIDE 
DE LA MOYENNE ARITHMÉTIQUE, DE LA MÉDIANE ET DU MODE 


La comparaison de la moyenne arithmétique, de la médiane et du mode permet de 
caractériser la forme d’une distribution. 3 cas sont possibles : 


— Distribution parfaitement symétrique : Moyenne=Médiane=-Mode 
— Distribution étalée vers la droite : Moyenne > Médiane> Mode 
— Distribution étalée vers la gauche : Moyenne<Médiane< Mode. 


Considérons chacun de ces cas en l’illustrant par un exemple. 


A - Distribution parfaitement symétrique 


Exemple : soit le tableau 9 suivant et le diagramme en barre de la figure 6 qui l’'illustre. 


Tableau 9 : Distribution parfaitement symétrique 


Le calcul des 3 indices révèle que x = Me = Mo =3 


La distribution est parfaitement symétrique, comme l’illustre le diagramme en bâtons de la 


figure 6 ci-dessous. 
Figure 6 : Distribution parfaitement symétrique 


Moyenne arithmétique = Médiane = Mode =3 


“ 
5 À 
À + 
| 
#; 
2 3 4 2 
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B - Distribution étalée à droite 


Exemple : soit le tableau 10 suivant et le diagramme en barre de la figure 7 qui l'illustre. 


Tableau 10 : Distribution étalée à droite 


Le calcul des 3 indices révèle que X = 2,33 > Me = 2 > Mo=1 


La distribution est étale à droite, comme l’illustre le diagramme en bâtons de la figure 7 
ci-dessous. 


| Figure 7 : Distribution étalée à droite 


# Mode =1 
10 
Le Médiane = 2 
8 
6 
4 
2 


Hi 


1 GR) à 4 5 


; 


Moyenne arithmétique 


70 MÉMENTO -— STATISTIQUE DESCRIPTIVE 


C - Distribution étalée à gauche 


Exemple : soit le tableau 11 suivant et le diagramme en barre de la figure 8 qui l'illustre. 


Tableau 11 : Distribution étalée à gauche 


Le calcul des 3 indices révèle que X = 3,7 < Me = 4 < Mo =5 


La distribution est étalée à gauche, comme l’illustre le diagramme en bâtons de la 
figure 8 ci-dessous. 


Figure 8 : Distribution étalée à gauche 


Mode = 5 


10 Médiane = 4 \ 
x 


Moyenne arithmétique 


CHAPITRE 


IBRERRES et concentration 


En complément du chapitre précédent qui étudiait les caractéristiques de tendance 
centrale d’une distribution, le présent chapitre s'intéresse à la variabilité des données 
au sein d’une série. Ainsi, une fois la moyenne connue, on peut compléter la 
connaissance d’une série pour apprécier dans quelle mesure les données sont 
dispersées ou au contraire concentrées autour de la moyenne. 


Sauf dans le cas très rare d’une série statistique où toutes les valeurs sont identiques — 
par exemple un élève qui a 15 sur 20 dans toutes ses matières — il existe toujours une 
certaine variabilité des données dans une série. Ainsi, le prix au mètre carré varie plus 
ou moins d’une maison à l’autre, le prix d’un produit varie aussi d’un magasin à l’autre. 
Les salaires varient d’une entreprise à l’autre, de même que, en général, les notes d’un 
élève dans les différentes matières de son cursus. 


Les caractéristiques de dispersion et/ou de concentration sont nombreuses. Nous 
étudierons ici les plus fréquemment utilisées : l'intervalle de variation, la variance, l'écart- 
type, le coefficient de variation, les intervalles interquartiles et interdéciles et l'écart 
médiale-médiane. Nous verrons également deux outils graphiques utiles pour l'analyse 
de la dispersion/concentration d’une distribution : le graphique « boîte à moustaches », 
ainsi que la courbe de concentration. 


1 © L'INTERVALLE DE VARIATION 


L'intervalle, ou « spread » c'est la différence entre la plus grande valeur et la plus 
petite valeur de la variable. 


Exemple : soit deux élèves dont les notes dans quatre matières ont été les suivantes : 
Élève A : { 8, 9, 10, 11, 12} Élève B : {2, 4, 16, 18} 

L'étendue des notes de À est 12-8 = 4, tandis que l'étendue des notes de B est 

18 — 2 = 16. On notera pourtant que la moyenne des deux élèves est de 10. Mais B a 


des notes beaucoup plus dispersées que A. En fait, si on fait le rapport 16/4, on voit 
que les notes de B sont 4 fois plus dispersées que celles de A. 


Cet exemple montre l'utilité de l'intervalle de variation pour avoir une première idée de 
la dispersion. Mais l'indicateur est assez limité, car il est trop sensible aux valeurs 
extrêmes comme le montre l'exemple ci-après. 


Exemple : soit la série suivante {1016, 774, 1008, 8, 1001, 999, 1100} 
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Il est commode de classer les chiffres par ordre croissant : 


{8, 774, 999, 1001, 1008, 1016, 1100} 


L'intervalle de variation est donc donné par IV = 1100 — 8 = 1092. On constate que la 
valeur de l'intervalle de variation est exagérément augmentée par la présence du chiffre 8. 


2 + L'INTERVALLE INTERQUARTILE 


L'intervalle interquartile est une mesure de la variation qui n’est pas influencée par les 
valeurs extrêmes, contrairement à l'intervalle de variation. 


Sa définition est simple : l’intervalle interquartile mesure l'étendue des 50% de valeurs 
situées au milieu d’une série de données classées. 


Il se calcule en procédant aux quatre étapes suivantes: 


1) Classement des données de la série par ordre croissant. 


2) Trouver la médiane de la série pour séparer celle-ci en deux séries : la pemière série 
contient les données inférieures à la médiane et la seconde les données supérieures à 
la médiane. 


3) Déterminer la médiane des deux nouvelles séries, sans inclure dans aucune d'elle la 
médiane de la série initiale. La médiane de la première série est appelée « premier 
quartile » et désigné par Q,. La médiane de la seconde série est appelée « second 
quartile » et désigné par Q:. 


4) Calculer IQ, l'intervalle interquartile par la formule : 
1Q — Q, —Q, 


Les figures 1-a et 1-b, ainsi que les quatre exemples ci-après illustrent les notions de 
quartiles et d'intervalle interquartile dans le cas de données groupées (1-a) ou non 


groupées (1-b) 
Figure 1 : La notion d'intervalle interquartile 


1-b : données non groupées 


—_ 2 — 


ntervalle 
interquartile 


1-a : données groupées 


Effectifs 


Intervalle 
(ep 


interquartile 


3 
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Exemple 1 : soit la série de chiffres suivants, où aucune valeur n'est répétée. Le 
nombre de chiffres est impair. 


{4, 13, 17, 7, 1,3, 9, 14, 12, 20, 16, 15, 11, 6,5} 


1) Afin de déterminer l'intervalle interquartile, classons d’abord les données de la plus 
petite à la plus grande. 


{1, 3, 4, 5, 6, 7, 9, 11, 12, 14, 15, 16, 17, 19, 20} 
2) Déterminons la médiane et séparons la série en deux « sous-séries » : 


{1,3,4,5,6,7,9, (1) ,12, 14, 15, 16, 17, 19, 20} 
—, —— Î es ee 7 


1è série Me 2ème série 


3) Déterminons ensuite la médiane de chacune de ces deux nouvelles séries 


{1,8,4, (6),6,7,9} (12, 14,15, (18) ,17, 19, 20} 
+ + 


Q: Qs 


4) Il reste plus qu’à calculer l'intervalle interquartile : 


1Q=Q,-Q =16-5-=11 


Figure 2 : L'intervalle interquartile 
données non groupées, effectif impair 


17,19,20 


= = _ _ 
Q.=5 | Intervalle Q.,=16 
interquartile 


Remarque : Dans ce cas, particulier, la médiane est égale à 11 et l'intervalle 
interquartile a aussi pour valeur le chiffre 11. Mais c’est un hasard. 
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Exemple 2 : soit la série de chiffres suivants, où aucune valeur n’est répétée. Cette 
fois, le nombre de chiffres est pair. 


{4, 13, 17, 7,1, 3, 9, 14, 12, 20, 16, 15, 11, 6} 


1) Afin de déterminer l'intervalle interquartile, classons d’abord les données de la plus 
petite à la plus grande. 


{1,3,4, 6,7,9,11,12,14,15,16,17,19,20} 


2) Déterminons l'intervalle médian, puis la médiane et séparons la série en deux séries. 
Ici, (n+1}/2=(14+1)/2=7,5. L'intervalle médian est donc constitué par la 7ème et la 8ème 
valeur, c'est-à-dire [11-12]. Et la médiane (11+12)/2=11,5. 


{ 1,3,4,6,7,9,11 Î ,12,14,15,16,17,19,20  } 


1è" série Me 2ème série 


3) Déterminons ensuite la médiane de chacune de ces deux nouvelles séries 


(1,3,4,(6).7,9,11) {12,14,15, 17,19,20} 
Î t 


Q; Q; 


4) Il reste plus qu’à calculer l'intervalle interquartile : 


1Q=Q,-Q,-16-6-10 


Figure 3 : L'intervalle interquartile 


données non groupées, effectif pair 
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Exemple 3 : Soit la série de chiffres suivants : 


{4,13, 6, 4,13, 17,7,15,7,16,9, 6,7,1,3,9,14,1,1,12, 11, 20,16,15,11,6, 11} 


1) Afin de déterminer l'intervalle interquartile, classons d’abord les données de la plus 
petite à la plus grande et, comme certaines données sont répétées, construisons un 
tableau, en ajoutant une ligne pour les effectifs cumulés. (> n, T désigne le cumul 
croissant des valeurs). 


| Tableau 1 : Série groupée par valeurs | 


ER AI IE En 


DONOOOEIDDONANNE 
DODODEC 


n/2=27/2=13,5 


2) Déterminons la médiane de la série par la méthode étudiée dans le chapitre 3 dans le 
cas des données groupées par valeurs. On voit que puisque n=27, on a n/2=27/2=13,5, 
ce qui tombe entre 12 et 14. Par convention, nous choisissons la valeur de la variable 


qui correspond à 14, soit 9. 


3) La médiane est donc égale à 9. Et nous avons deux séries, dont nous pouvons 
maintenant déterminer les médianes respectives, suivant la même méthode. 


Tableau 2 : Calcul des quartiles 


n/2 = 9/2 =4,5 n/2=15/2=7,5 


4) L'intervalle interquartile est donc : 


1Q=Q,-0Q,=13-4=9 
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Remarques : 


1) Normalement, 50% des effectifs devraient être concentrés dans l'intervalle 
interquartile. Ce n’est pas tout à fait le cas ici, en raison des approximations de la 
méthode. || y a en effet 16 unités statistiques sur 27 qui sont dans cet intervalle, soit 


16/27 = 0,59. 


2) On peut rapporter l'intervalle interquartile à l'intervalle de variation : 


Intervalle HÉMUARIé «100 = QG -Q, «100 = 13-4 «100 9 x100 = 47,3% 
Intervalle de variation 20 19 19 


3) Enfin, on peut représenter les résultats sur un graphique : 


Figure 4 : L'intervalle interquartile, données groupées 


ri= effectifs 


Intervalle interquartile 


K= Valeurs 
Î 3 4 6 7 9 111213141516 17 20 


Exemple 4 : Soit le tableau suivant, où les valeurs de l'exemple précédent ont été 


regroupées par classes. 
Tableau 3 
[0-4 [4-81 [8-121 [12-161 [16-20] 


RAI RTEREX 
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1) Afin de déterminer l'intervalle interquartile, ajoutons une ligne pour les effectifs 


cumulés. 
Tableau 4 


n/2= 27/2 = 13,5 


2) Déterminons la médiane de la série par la méthode étudiée dans le chapitre 3 dans le 
cas des données groupées par classe. Il faut d’abord déterminer la classe médiane, qui est 
ici [8-12[. Il n’est pas nécessaire de connaître la valeur exacte de la médiane pour séparer 
les deux séries, mais calculons-là quand même en appliquant la formule étudiée au 
chapitre 3 pour le calcul de la médiane quand les données sont groupées par classe : 


n 
—N(x:) Z 
M,=3x" +a,x 2 #4 { 0 )L0 


ñ. 


i 


3) La classe médiane [8-12[ permet de diviser le tableau en deux. Calculons les 
médianes respectives de chacun de ces tableaux : 


Tableau 5 


12/2 =6 n/2=10/2=5 


n/2 
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L'histogramme ci-dessous, permet d'illustrer l'intervalle interquartile dans le cas où les 
données sont groupées par classes. 


Figure 5 


ü LÉ 
Intervalle Interquartile 
.< > 
6 : 
5 
4 8 12 16 20 


3 e LA BOÎTE À MOUSTACHE 

A - Définition 
La boîte à moustache, de l'anglais « Box and Whiskers », parfois aussi désignée « box 
plot », est un graphique qui résume la dispersion d'une série à partir de 5 valeurs : la 
valeur minimale et la valeur maximale (ce sont les « moustaches »), l'intervalle 


interquartile (désigné par ses deux valeurs Q, et Q;) et la médiane (ces trois dernières 
valeurs constituant la « boîte »). 


Exemple : soit la série de chiffres suivante, où aucune valeur n’est répétée. Le nombre 


de chiffres est impair. 
{4, 13, 17, 7, 1, 3, 9, 14, 12, 20, 16, 15, 11, 6, 5} 


Nous savons que Me = 11, Q,= 5 et Q, = 16 pour les avoir calculés à l'exemple 1 de la 
section 2 de ce chapitre. Quant aux valeurs minimale et maximale, elles sont 
respectivement égales à 4 et 20. Classons la série par ordre croissant pour mieux faire 
apparaître les différentes valeurs impliquées dans la boîte à moustache. 


(3 4 (5). 6 ,7 9 (1) ,12 ,14 ,15 G6),17 ,19 (0) 
Î Î Î l Î 


Minimum Q, Me GE Maximum 
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Le graphique dit de la « boîte à moustache » correspondant est donc : 


| Figure 6 | 
Minimum Q,=5 Me =11 Q:=16 Maximum 


B — Utilité de la boîte à moustache pour comparer des séries 


La boîte à moustache permet de comparer des séries du point de vue de leur dispersion 
mais aussi de leur caractéristique de tendance centrale (puisque la médiane est 
repérée). 


Exemple : soient les notes sur 20 de 4 groupes d'étudiants : 


Groupe À {1,2,2, 12, 5, 5, 9,5, 7, 11, 7, 8, 2} 
Groupe B  {16, 13, 15, 13, 11, 13, 16, 3, 18, 11} 
Groupe C {8, 8, 8, 7, 4, 16, 13, 16, 18, 11} 

Groupe D {12, 10, 6, 8, 5, 16, 12, 15, 10, 15, 12, 10} 


La comparaison des graphiques boîtes à moustaches de chaque groupe permet 
d’avoir une bonne idée de la dispersion des notes, tout en visualisant la note 
médiane (qui est souvent jugée préférable à la note moyenne). 


Figure 7 


L 18 18 


16 —— 


4—t— 


3 —1— 


1 =! 


Groupe A Groupe B Groupe C Groupe D 
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C - Utilité de la boîte à moustache pour déterminer la forme 
d'une distribution 


Suivant la position de la médiane au sein de la boîte, on peut en déduire des 
informations sur la forme de la distribution. 


1) Si la médiane est proche du centre de la boîte, c'est que la distribution est 
symétrique. 


2) Si la médiane est à gauche du centre de la boîte, c'est que la distribution est étalée à 
droite. 


3) Si la médiane est à droite du centre de la boîte, c'est que la distribution est étalée à 
gauche. 


De même, en comparant la longueur respective de chaque moustache, on peut en 
déduire des informations sur la forme de la distribution. 


1) Siles moustaches sont à peu près de la même longueur, c’est que la distribution est 
symétrique. 


2) Si la moustache de droite est plus longue que la moustache de gauche, c’est que la 
distribution est étalée à droite. 


3) Si la moustache de gauche est plus longue que la moustache de droite, c'est que la 
distribution est étalée à gauche. 


Exemple : Soit les trois séries utilisées dans la section 4 du chapitre 3, dont les 
distributions (voir les diagrammes en bâtons) sont respectivement symétrique (Me=3), 
étalée à droite (Me = 2) et étalée à gauche (Me = 4): 


A={1,1,2,2,2,2,3,3,3, 8,8, 4,4, 4,4, 5, 5} 
B={1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2, 2,3,8,8,8,8,,4,4,4,4, 5,5} 


C={1,1,2,2,2,2,38,8,8,8,3,3,4,4,4,4,4,4,4,4,5, 56,5, 5, 5, 5, 5, 5, 5, 5} 


Les boîtes à moustaches correspondantes ont bien les caractéristiques précitées : 


Figure 8 


A L Me=3 Symétrique 
B | | |Me=2 | Étalée à droite 
Cf Me=4 Étalée à gauche 


_ 
3 
C2 
& E 
on L 
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4 e VARIANCE, ÉCART-TYPE ET COEFFICIENT DE VARIATION 


La variance, l’écart-type et le coefficient de variation sont les indicateurs les plus 
fréquemment utilisés pour mesurer la dispersion d’une série. Ces indicateurs 
renseignent sur la dispersion des données autour de la moyenne. 


Plus les données sont concentrées autour de la moyenne, plus les valeurs de ces trois 
indicateurs sont faibles. Inversement, plus les données sont dispersées autour de la 
moyenne, plus ces trois indicateurs sont élevés. 


A - La variance 
1) Définition 


Soit une série de valeurs d’une variable X : {x, ,x,,.... ,X. Soit les effectifs associés : 
{nn M. La variance de cette série s'écrit : 


k 
Dn(x- x), si l'effectif considéré est celui d’une population. (1) 


k 
Ge SA (x, - x) , Si l'effectif considéré est celui d'un échantillon. (2) 


Ainsi que nous l'avons déjà indiqué dans le chapitre 1, sauf mention contraire explicite, 
nous ne considérons dans cet ouvrage que des populations. Par conséquent, la formule 
(1) sera utilisée dans la suite. 


Remarque : Si {n,, n, 4} = {1, 1,....,1} et que k = n, la variance de la série s'écrira : 
; 1< = V2 
o = 2(%-X) (1-a) 
i=1 


Autrement dit, lorsque les données sont connues individuellement ou qu'elles ne se 
répètent pas, c’est la formule (1-a) qui s'applique. En revanche, lorsque les données 
sont groupées par valeurs, c’est la formule (1) qui s'applique. Enfin, lorsque les données 
sont groupées par classe, c'est le centre de classe c,, qui remplace x; dans la formule (1). 
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2) Mode de calcul de la formule (1-a) 


Pour calculer la variance à partir de la formule (1-a), on applique successivement les 
étapes suivantes : 


a) Calcul de la moyenne 

b) Calcul des écarts à la moyenne 

c) Calcul des carrés des écarts à la moyenne 
d) Somme des carrés des écarts à la moyenne 
e) Division parn 


L'exemple ci-après illustre cette méthode. 


Exemple : soit la série {2, 5, 7, 1, 9, 13, 6, 15, 8, 16} 


Les étapes a), b), c) et d) sont facilitées par la disposition en tableau : 
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3) Mode de calcul de la formule « développée » 


La formule (1) peut aussi être calculé suivant la méthode précédente. Toutefois, pour 
faciliter les calculs, il est préférable d'utiliser la formule dite « développée ». On montre 
en effet que la formule (1) peut s’écrire : 


(1-b) 


Pour calculer la variance à l’aide de la formule « développée », on suit les étapes : 


a) Calcul de la moyenne pondérée et élévation de celle-ci au carré 

b) Calcul des x? 

c) Calcul des nx? 

d) Somme des nx? 

e) Division des n:x? parn 

f) _ Soustraction du carré de la moyenne au carré de la moyenne des n,x? 


Exemple : soit le tableau suivant 


Les étapes a), b), c), d) et e) sont facilitées par la disposition en tableau : 


2-1 2156-(8) 
26 


o° = 82,9231- 64 -18,9231 
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B — L'écart-type et le coefficient de variation 
1) L'écart-type 


L'écart-type est égal à la racine carrée de la variance : 


1 ER 1 CRE 
o=, D n(x-x) =, 5 nx-x (3) 
ni ni 


Naturellement, si aucune valeur n'est répétée ou si les données ne sont pas regroupées 
par valeur, on aura : 


1< a 1< 2 
= | Lien 2_ 72 (3-a) 
© Ê > (x; —X) à x? —X 


i=1 


Exemple 1 : Soit la série {2, 5, 7, 1, 9, 13, 6, 15, 8, 16} 


La variance de cette série a été calculée à la section 4-2. Elle est égale à : 


L'écart-type est : 
© = 23,76 = 4,87 
Exemple 2 : Soit les données du tableau 7 


La variance a été calculée et est égale à : 


o° =18,9231 


On en déduit l’écart-type : 


o = 418,9231 = 4,35 
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2) Le coefficient de variation 


cv-[£)x100 
X 


Exemple : On connaît les salaires mensuels bruts en euros des 200 employés de la 
même entreprise, à 10 ans d'intervalle (voir le tableau 9). Les données sont groupées 
par classe. Le nombre d'employés est passé de 200 en 1994 à 280 en 2004. On veut 
savoir si la dispersion des salaires à augmenté. Pour cela on va calculer le coefficient de 


variation en 1994 et en 2004. 
Tableau 9 


7 
Œ 
5000-10000 4 


On notera tout d’abord que les données sont groupées par classes de valeurs. Dès lors, 
il convient de calculer c, le centre de chaque classe, qui tiendra lieu de x; dans les 
différentes formules. Les tableaux 10 et 11 ci-après indiquent les calculs intermédiaires 
nécessaires pour obtenir le coefficient de variation des salaires, respectivement en 1994 


et en 2004. 
Tableau 10 


6000 2250000 90000000 


175000 6250000 43750000 


GE ES ME 
| 


280000 12250000 980000000 
22500 20250000 101250000 
37500 56250000 281250000 


200 575000 1890000000 


Totaux 
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Calculons la moyenne, la variance et l’écart-type à partir des calculs intermédiaires du 
tableau 10 : 


5 
=>" Se 575000 _ 75 
200 & 200 


(2875) -1088,29 


. Ê 8390000000 
200 


Et le coefficient de variation des salaires pour l’année 1994 est donc égal à : 


CVs -[£ }100 = RE «100 = 37,8536 
X 


Refaisons les calculs pour l’année 2004 : 


Tableau 11 
2004 
Salaires 
(n) 


1000-2000 56 1500 84000 2250000 126000000 


3000-4000 3500 322000 12250000 1127000000 
4000-5000 4500 45000 20250000 202500000 
5000-10000 7500 30000 56250000 225000000 


2000-3000 2500 295000 6250000 737500000 
9 
1 


280 776000 2418000000 
Totaux 
a 776000 2 1, > D 
X= n,C, = = 2771,43 = 2,MCi —X 
280 2 Pi 340 2805 
_2 2418000000 _ (err143) 
o = 1254898 = 977,189 280 
o? = 954898 
Cocos =[ 1x 100 = 77718 100 - 35,2504 
x 2771,43 


En comparant les deux coefficients de variation, on constate que la dispersion des 
salaires s’est réduite. 
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5 e LES INDICATEURS DE CONCENTRATION 


C’est pour l'étude de la répartition des salaires, des revenus ou des patrimoines que les 
premiers indicateurs de concentration ont été élaborés. C'est en fait une autre façon de 
mesurer la dispersion puisque, par définition, plus une série est concentrée, moins elle 
est dispersée et réciproquement. 


Cependant, contrairement à la dispersion, la concentration n’a de sens que pour des 
données positives et a des variables ou des caractères dont l'addition a un sens : ainsi 
pourra-t-on additionner des patrimoines, des surfaces, des chiffres d’affaires, etc. La 
notion de concentration appliquée à des variables telles que l’âge, la taille ou le poids 
d'une population, quoique envisageable en théorie, n’a pas nécessairement de 
signification. 


Il existe deux méthodes pour mesurer la concentration : par le calcul et par les 
graphiques. Avant de les étudier, il faut d’abord introduire la notion de médiale. 


A -— La médiale 


C’est un indicateur qui s’apparente à la médiane, mais appliquée à une série différente. 
En effet, alors que la médiane s’applique aux valeurs de la variable (les « x, »), la 
médiale s'applique aux valeurs de la variables multipliées par leurs effectifs respectifs 
(les « n..x; »). C'est la valeur du caractère qui partage l'effectif cumulé des n;.x; en deux 
parties égales. Elle sert à déterminer la concentration de la distribution par comparaison 
avec la médiane et avec l'intervalle de variation. 


On a donc la formule suivante : 


ne —N(n,x;) 
inf 
M, = x" +a; 
n,X; 
N inf : 2 Pre 
Où: x" = Borne inférieure de la classe médiale. 


N(x;:) = Effectif cumulé strictement inférieur à n, x; 


x;,= Classe médiale a, = Amplitude de la classe médiale 
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Exemple : Soit le tableau suivant 


Tableau 12 


[o-1[ 1-5[ [5-10[ [10-20] [20-50] 
Feteais 6 fs os er La 


Afin de calculer la médiale, il faut d’abord faire un tableau avec les fréquences cumulées 
et les masses cumulées (c’est-à-dire les nc, T ). Comme les données sont regrou- 


pées par classe, c tient lieu de x;. 
Tableau 13 


1590/2=795 


= 21,61 


M,;=x" 23; = 20 + 30 


5 N(nx) pese 


B - La détermination de la concentration par la méthode graphique 


Il s’agit de construire une figure appelée « Courbe de concentration » ou encore 
« courbe de LORENZ », du nom de son inventeur, l'américain Max ©. LORENZ (1880- 
1962) qui cherchait un moyen commode de comparer les inégalités de revenu entre 
diverses populations. Elle peut aussi servir à mesurer d’autres formes d'inégalité que 
celles des revenus. 
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La courbe de LORENZ se trace dans un carré de côté 1. En abscisse, figurent les 
fréquences relatives cumulées de la variable et en ordonnée figurent les n..x, cumulés 
rapportés à la la somme des n,.x. Afin de fixer les idées, la courbe de LORENZ de la 
figure 9 est tracée avec les données du tableau 12 (et au moyen des calculs dérivés qui 
figurent dans le tableau 14 ci-après). 


o 


(ni) k 
[mt | 6 | | 


Abscisse de la Ordonnée de la 
courbe de LORENZ courbe de LORENZ 


Figure 8 : Courbe de LORENZ 


Tableau 14 


n;c, cumulés 
: Ci relatifs 

: DCE à (division par 
1590) 


0,047619 | 0.047619 


> nc; Courbe de LORENZ 


0,471698 


0,216981 


0,075472 


0,357143 Î 0,809524 
0,595238 
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Plus la courbe de LORENZ est éloignée de la première diagonale, plus la distribution est 
concentrée. Plus au contraire elle se rapproche de la diagonale et moins la distribution 
est concentrée. Si la courbe de LORENZ se confond avec la diagonale, la répartition est 
dite « égalitaire ». La figure 9 ci-après illustre deux situations diamétralement opposées : 
forte concentration (a) et faible concentration (b). La courbe de LORENZ est donc un 
moyen géométrique et visuel d'observer la concentration d’une série. Elle permet 
d'effectuer des comparaisons de séries à un même moment (les salaires dans deux ou 
plusieurs entreprises) ou d’une série à plusieurs moments différents (l’évolution de la 
répartition des salaires dans une entreprise). 


Figure 9 : Courbes de LORENZ 


SneT 
D nc 


aire de concentration 


N 


(b) Faible concentration Di di 


La surface hachurée est appelée « aire de concentration ». On peut la mesurer par une 
formule, appelée « Indice de concentration de GINI » ou plus communément « indice de 
GINI », que nous allons maintenant étudier. 


C - L'indice de GINI 


Géométriquement, l'indice de GINI, du nom du statisticien italien Corrado GINI (1884- 
1965), est égal à l'aire de concentration, divisée par la moitié de la surface du carré 
(c'est-à-dire *2) : 


Indice de GINI = aie See = 2 aires de concentration 


Si l’on dispose de papier millimétré, on peut compter les petits carrés et avoir une idée 
approximative de la surface de l'aire de concentration. Mais il est préférable d'utiliser la 
formule analytique. 
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La formule analytique de l'indice de GINI est donnée par : 


Z>x-xnn, 
ES 


2n(n-1)x 


Pour voir ce que représentent les x; et les x, ainsi que les n; et les n,, le mieux est 
d'appliquer la formule à un exemple. 


Exemple : Soit le tableau suivant d’un groupe de 15 individus répartis en fonction de la 
valeur de leur patrimoine (en millions d'euros). La troisième colonne indique les centres de 


classe. 
Tableau 15 


Afin de calculer le numérateur de la formule, il faut disposer les chiffres dans un 
tableau, de la façon suivante : 


Tableau 16 : Disposition des calculs pour la détermination de l'indice de GINI 


Éd 


N _ _ © 
LS _ ra 


— 

N 
Oo 
N 
£ ©œ 
Cu © 
o1 o1 


ES 
N 
R 


Ca 
DER 
Ca 


é|:|+1<)- 01e 
Els 


N - 
R 
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La somme de la dernière colonne est égale à la somme de la dernière ligne, ce qui 
confirme qu'il n’y a pas d'erreur. Par conséquent : 


22 


7 n 


XX; 


nn; = 253 


Reste à calculer le dénominateur et en particulier la moyenne : 


1 


X = — 
15 


[(1x0,75)+(2x1,5)+(6x2,5)+(4x3,5)+(2x4,5)] = 278333 


Par conséquent : 
2n(n-11x=2x15x(15-1))x2,78333 =1169 


Et donc : 


. 22 -x Inn, _. 


_ = = 0,22 
2n(n-1)x 1169 


D — L'écart médiale/médiane rapporté à l'intervalle de variation 


L'autre façon de mesurer la concentration consiste à calculer le ratio suivant : 


_ MI -Me 
IV 
Où MI est la médiale, Me la médiane et IV l'intervalle de variation. 


IC 


Exemple : Reprenons les données du tableau 15. Disposons le tableau des calculs 


intermédiaires pour la médiane et la médiale : 


Tableau 17 


| 


CERT 
18,75 


[1-21 
32,75 
41,75 


i) 
1 
2 
4 
2 


iCi 
La] | 
En se 
es | 6 | 25 | 15 
sn) 
5221 


1,5 
2,5 
RP EE 


=" -75 —+ Classe médiane : [2-3] 


m 
2 
D 
n;c; 
1 AUTS _ 5588 —_» Classe médiale : [3-4[ 


2 2 


Les caractéristiques de tendance centrale 


Calculons la médiale : 


5 Nnx) de ee 
14 


| =1,6429 


Calculons la médiane : 


M, = x" +a,x ee 24e) 5) 


L'intervalle de variation est égal à : 
IV=5-0,5=4,5 


Par conséquent on a : 


IC = MI - Me - 1,6429 -1 _ 01429 
IV 4,5 
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Les séries statistiques 
à deux dimensions 


CHAPITRE 


Les séries statistiques à deux dimensions 


|: Tableaux, graphiques, vocabulaire 


La diffusion dans le grand public de logiciels permettant de produire des tableaux et 
des graphiques à deux dimensions, ainsi que divers calculs sur les séries à deux 
dimensions a grandement facilité leur étude, autrefois considérée comme difficile. 
Parmi les logiciels absolument incontournables, citons le logiciel Excel, de la suite 
OFFICE de MICROSOFT, qui permet de réaliser un très large éventail de graphiques 
et de tableaux, avec simplement quelques minutes de formation. 


La suite OPEN OFFICE, téléchargeable sur http:///fr.openoffice.org/ a des 
fonctionnalités identiques à celles d'OFFICE, mais possède l'avantage d'être gratuite. 


Le logiciel de calcul et de traitement graphique le plus complet reste cependant 
MATHEMATICA (www.wolfram.com) qui possède des fonctionnalités très étendues, 
tant au niveau des possibilités de production de graphiques et de tableaux, que des 
possibilités d'analyse statistique et mathématique. Il est malheureusement trop 
coûteux pour en envisager l'acquisition à titre individuel. 


Avant d'utiliser ces logiciels, il est cependant indispensable d'acquérir les bases 
nécessaires à la compréhension des concepts et outils statistiques développés pour la 
présentation et l'analyse des séries statistiques à deux dimensions. C’est pourquoi, 
dans ce chapitre (et le suivant), nous étudierons en détails ces méthodes de 
présentation et ces outils, en simplifiant au maximum les exemples proposés, sachant 
qu'une fois ces bases maîtrisées, l'étudiant pourra demander à un logiciel de faire les 
graphiques et les calculs. 


1 ° TABLEAUX ET GRAPHIQUES 
A - Séries quantitatives connues individuellement 


Exemple : on dispose des mesures de taille et de poids de 19 adolescents. Les 
données sont présentées par paires. Le premier élément de la paire correspond à la 
taille et le second au poids. 


{1140 : 38,2} ; {161 : 44,3} ; {155 ; 46,1} : {148 : 38,2} :{155 : 50,5} :{123 : 22,4} ; 
{160 : 40,4} ; {140 ; 34,7} : {165 ; 50,5} ; {172 ; 50,5} ; {155 : 38,1} : {160 ; 57,3} ; 
{142 ; 39,3} : {157 : 46,1} : {142:37,1} : {148 : 45,9} : {180 ; 66,3} ; {167 : 60} : 

{165 ; 50,5}} 
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La présentation des données dans un tableau à deux dimensions est données ci- 
dessous, avec la représentation graphique la plus courante qui est celle dite du 
« nuage de points ». 


Tableau 1 Figure 1 


ras [ ross | | De 
RS ON PRES re PSE re PS lé 
| | 


Taille (cm) 


Taille (cm) 


1] 45 
Poids (kilos) 


Ce graphique permet d’avoir un aperçu visuel de l'existence ou non d'une corrélation 
entre les deux variables, ici la taille et le poids. Ainsi, sur la figure 2, une droite « de 
tendance » a été ajoutée. Les coefficients de cette droite peuvent être calculés 
précisément (c'est l’objet du chapitre 6). On se contentera ici de noter que les points 
se regroupent assez bien autour de cette droite, ce qui semble confirmer que, toutes 
choses égales par ailleurs, il existe une relation positive entre la taille et le poids. 
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B — Séries quantitatives groupées 


Exemple : Les données de l'exemple 1 concernant la taille et le poids de 


19 adolescents ont été regroupées par classe dans le tableau de contingence ci-après. 


Creer 


[120 :140[ 


CO NE D NC 
Hnaoen [6 | + | 0 
CCS RS ECS DES 


Effectifs 


7 
[160 180 


© 
140 :160 
TL 
Ÿ 
k 


[120 ; 140] 


La figure 3 illustre la représentation classique sous forme d’un histogramme à trois 


dimensions : le poids, la taille et les effectifs. Les effectifs non nuls ont été reportés 
directement sur les barres. 
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C-Séries qualitatives 


Exemple : supposons que l’on ait les données suivantes sur le sexe et le statut 
d'activité de 20 personnes. Les données sont présentées par paire. La première 
information concerne le sexe avec les deux modalités M et F. La seconde information 
concerne le statut d'activité, avec trois modalités (actif occupé [AO], chômeur [C], 
inactif [1]). 


&F; AO}; {M;1};{F;C};{F;C};,{M; AO}; {M ; AO}; {M;C},€;l}; {31};{F:1};:{M;C}; 
{F ; AO} ; {F ; AO} ; {F ; AO} ; {M ; AO} ; {M ; C} ;, {M ; AO}; {F ;1};{F,C};{M, AO}} 


Regroupons ces données dans un tableau de contingence : 


Tableau 3 


Actifs Chômeurs Inactifs 
occupés 


On obtient le graphique suivant, qui est une variante d’histogramme : 


Féminin 


AU% 


Masculin 


Actifs occcupés 
Chômeurs 


Inactifs 
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2 REPRÉSENTATION ABSTRAITE D'UN TABLEAU DE CONTINGENCE 


Le tableau 4 représente un tableau de contingence sous forme symbolique. 
A l'intersection de la modalité x, et de la modalité y, se trouve l'effectif correspondant. 


Tableau 4 


Valeurs ou modalités de Y 


rm 
© 
Q 
Les +} 
Fi 
3 
® 
@. 
2 
D 
[es 
x 
es 
oo) 
x 


Valeurs où modalités de X 


| Effectifs marginaux de y | 


L'effectif n, représente le nombre d'individus qui ont à la fois la modalité/valeur X 
et la modalité/valeur Y; On a ensuite les symboles suivants : 


n., : effectif des individus qui ont la modalité/valeur 2 de x et la modalité 2 de Y. 
Par convention, on notre toujours la modalité/valeur de X (i) avant celle de Y (j). 
Ma : effectif des individus qui ont la modalité/valeur 2 de x et la modalité q de Y. 


LES effectif des individus qui ont la modalité/valeur p de x et la modalité/valeur q de Y. 
M : effectif des individus qui ont la modalité/valeur i (le « + » à la place du j signifie que 


l'on ne tient pas compte de Y}). Exemple : M. désigne tout l'effectif des individus qui ont la 
modalité/valeur 1 de X. 
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n. : effectif des individus qui ont la modalité j (le "e" à la place du i signifie que l'on ne 
tient pas compte de X). Exemple : n,, désigne tout l'effectif des individus qui ont la 
modalité/valeur 1 de Y. 

n.. : effectif total. 


q 
Dès lors : n. = Din = Ni +++ Ni 


n.=ÿn,-Ÿ {Sn )-Ÿn, -S (Sn, 


Exemple : Soit le tableau de contingence suivant d'un groupe de 50 personnes 
réparties par groupe d'âge (« x ») et par sexe (« y »), tous âgés de 45 ans au plus. 


Tableau 5 


DIRSRE 


En reprenant la notation du tableau 4 on a ici : 


NM =10; n,, = 20;n,, =5;n,, =15 


nu = M3 + M2 = 10 +20 = 30 Mae = Na + M2 = 5 +15 = 20 


Na =h+h =10+5=15 No = No +3 = 20 +15 = 35 


NP = Mis + Mio + Nos + Nos = 10 +20 +5 +15 = 50 
n.="n +, = 30 +20 = 50 
n.=hatn, =15+35 = 50 
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3 ° EFFECTIFS MARGINAUX ET FRÉQUENCES MARGINALES 


Ajoutons une ligne et une colonne au tableau 5, et remplissons-les par les résutats des 
sommes que nous venons juste de calculer. 


Tableau 6 


Cette ligne et cette colonne que nous venons d'ajouter, ce sont les distributions 
marginales du tableau de contingence. Ainsi, la colonne n, représente la 
distribution marginale de x, c'est-à-dire les valeurs possibles de x quel que soit y. 
De même la ligne n,, représente la distribution marginale de y, c'est-à-dire les 
valeurs possibles de y quel que soit x. 


Les fréquences marginales de x s’obtiennent en divisant la colonne par son total 
soit dans l'exemple 30+20 = 50. De même les fréquences marginales de y 
s'obtiennent en divisant la ligne par son total soit dans l'exemple 15+35 = 50. Le 
tableau 7 donne les fréquences marginales de x et de y dans le cas du tableau 6. 


Tableau 7 
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Plus formellement, les définitions des fréquences marginales sont données par : 


Fréquences marginales de x : f, = a i=1,...,p 
Fréquences marginales de y : br A jF1,...,q 
Ainsi, dans l'exemple du tableau 7, on a : 
f, = - T-06 L = = = 04 f, = nu -È 0,3 £.= _ -$-07 


4 e MOYENNES ET VARIANCES MARGINALES 


A - Moyennes marginales 


Les moyennes marginales de x et de y se calculent à partir des distributions 
marginales suivant les formules suivantes : 


Où le signe « = » situé sur x et y permet de rappeler qu'il s’agit de moyennes de 
distributions marginales. 


Exemple : Soit le tableau de contingence suivant 


Tableau 8 
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Calculons la moyenne marginale de x : 


= 1 & 1 
DL OS EN 17*x4)]=3,125 


B - Variances marginales 


Les variances marginales de x et de y se calculent à partir des distributions 
marginales suivant les formules suivantes : 


ct= TS n.(x-x)- L TS n.x2 x: x | 


e… i=1 e… i=1 


a Dee 


e j=1 


Lin) 


N. 5 


Exemple : Calculons les variances marginales de x et de y à partir des données du 
tableau 8. Disposons les calculs sous forme de tableaux. 


Tableau 9 


—\2 
ci Y nt y) - T(279)-(3,125) = 1859875 


24 
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Se FRÉQUENCES PARTIELLES SUR EFFECTIF TOTAL 


Les fréquences partielles sur effectif total s'obtiennent en divisant chaque n; par 


l'effectif total. 


Exemple : Calculons les fréquences partielles sur effectif total du tableau 8 


Tableau 10 
a (3/24) = 0,125 (5/24) = 0,208 


On remarquera que la somme des effectifs partiels sur effectif total est égale à 1. En 
effet : 


0,125 + 0,208 + 0,167 + 0,5 =1 


Plus précisément, l'effectif partiel sur effectif total se définit par la notation : 


On a donc : 


fatho+bi+ho =1 


6 e DISTRIBUTIONS CONDITIONNELLES 


Les distributions conditionnelles s'obtiennent en fixant la valeur d’une des deux 
variables (où la modalité d’un des deux caractères). 


Exemple 1 : Dans le cas de chiffres du tableau 8, la distribution conditionnelle de x 
quand y = 1 est donnée par la première colonne du tableau. De même, la distribution 
conditionnelle de x quand y = 4 est donnée par la deuxième colonne du tableau. Le 
tableau 11 illustre les deux distributions conditionnelles de x pour y donné. Il y a deux 
distributions conditionnelles de x car y ne prend ici que deux valeurs. En général, 
sachant que j varie de 1 à q, il y a q distributions conditionnelles de x. 
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Tableau 11 


Distribution conditionnelle de x 
quand y = 1 


Distribution conditionnelle de x 
quand y = 4 


Exemple 2 : Toujours en prenant les chiffres du tableau 8, la distribution 
conditionnelle de y quand x = 2 est donnée par la première ligne du tableau. De même, 
la distribution conditionnelle de y quand x = 8 est donnée par la deuxième ligne du 
tableau. Le tableau 12 illustre les deux distributions conditionnelles de y pour x donné. 
Il y a deux distributions conditionnelles de y car x ne prend ici que deux valeurs. En 
général, sachant que i varie de 1 à p, il y a p distributions conditionnelles de y. 


Tableau 12 


Distribution conditionnelle de y 
quand x = 2 


Distribution conditionnelle de y 
quand y = 8 
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V4 e MOYENNES ET VARIANCES CONDITIONNELLES 
A - Moyennes conditionnelles 


Pour chaque distribution conditionnelle, on peut calculer une moyenne. Ainsi, dans le 
cas du tableau 8, puisqu'il y a deux distributions conditionnelles de x, il y a deux 
moyennes conditionnelles de que nous noterons respectivement : 


x, pour désigner la moyenne conditionnelle de x quand y = 1 


X, pour désigner la moyenne conditionnelle de x quand y = 4 


De la même façon, puisqu'il y a deux distributions conditionnelles de y, il y a deux 
moyennes conditionnelles de y que nous noterons respectivement : 


VA pour désigner la moyenne conditionnelle de y quand x = 2 


Y2 pour désigner la moyenne conditionnelle de x quand x = 8 


Exemple 1 : Calculons les deux moyennes conditionnelles de x dans le cas des 
données du tableau 8 : 


x, = 3[x 2)+(4x8)]=5,4286 
x = LT (5+2)+(12x8)] = 6,23529 


La formule des moyennes conditionnelles de x :est donc donnée par : 
= 1 € ; 
=D 0x 1<jSp 
ne; 1 


Exemple 2 : Calculons les deux moyennes conditionnelles de y dans le cas des 
données du tableau 8 : 


= a[(8x0+(6x4)] = 2,875 


Y2 = Lltax)+(12x4)] = 3,25 
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La formule des moyennes conditionnelles de y est donc donnée par : 


ie 


. 1 ; 
Y,=—S n;y, 1<i<q 
n j=1 


B —- Variances conditionnelles 


Pour chaque distribution conditionnelle, on peut calculer une variance. Ainsi, dans le 
cas du tableau 8, puisqu'il y a deux distributions conditionnelles de x, il y a deux 
variance conditionnelles de x, que nous noterons respectivement : 


V(x) pour désigner la variance conditionnelle de x quand y = 1 


V(x) pour désigner la variance conditionnelle de x quand y = 4 


De la même façon, puisqu'il y a deux distributions conditionnelles de y, il y a deux 
variance conditionnelles de y que nous noterons respectivement : 


V(y) pour désigner la variance conditionnelle de y quand x = 2 


V2) pour désigner la variance conditionnelle de x quand x = 8 


Exemple 1 : Calculons les deux variances conditionnelles de x dans le cas des 
données du tableau 8 : 


V(x,) =2[(8x22)+(4x87)]- (5,428) = 8,816 


VOe)= 2 [(6<2)+(12x82)]- (62358) = 7,474 


La formule des variances conditionnelles de x est donc donnée par : 


1 
AS 2 (x. 2 
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Exemple 2 : Calculons les deux variances conditionnelles de y dans le cas des 
données du tableau 8 : 


V(y.) = [(8xt)+(5x4)]-(2875) = 2,1094 


V(y:) = Ext) (12x#)]- (825) =1,6875 


La formule des variances conditionnelles de x est donc donnée par : 


CHAPITRE 


ls séries statistiques à deux dimensions 


Il: Outils d'analyse 


Ilest fréquemment nécessaire d'étudier les liens qui peuvent exister entre les deux (ou 
plus de deux) dimensions qui caractérisent une population statistique. Pour qualifier 
ces liens on parle de liaison statistique, de corrélation mais, c’est important de le 
préciser, il n’est jamais question de causalité, la statistique descriptive n'ayant pas 
pour objet de prouver des causalités. 


Ce chapitre se limite à l'étude des séries à deux dimensions, X et Y. Cela offre déjà un 
large éventail de possibilités si l'on se souvient que chacune de ces dimensions peut 
être quantitative, qualitative et que les données peuvent être groupées dans chaque 
cas par valeur où groupes de valeurs. À ces différents cas, correspondent des outils 
d'analyse appropriés que nous allons évoquer successivement. 


1 © SÉRIES QUANTITATIVES AVEC OBSERVATIONS 
CONNUES INDIVIDUELLEMENT 


A -— Liaison linéaire, liaison non linéaire, absence de liaison 


On s'intéresse à une statistique ayant deux dimensions que nous désignons par les 
variables X et Y. La notion de courbe de régression est un concept général qui va 
nous permettre de mettre en évidence au moyen d’un graphique s’il existe une relation 
entre ces deux variables et quelle est la nature de cette relation. 


La courbe de régression est en fait un tracé que l’on fait passer entre les observations 
d’un nuage de points. Le plus souvent, on essaie de tracer une droite (voir la figure 2 
du chapitre 5) que l’on désigne alors par droite de régression ou, plus simplement 
par l'expression droite de tendance. 


Exemple 1 : Soit S la série de données ci-dessous relatives aux deux variables X et Y, 
présentées par paires. Le premier élément de la paire correspond à la valeur de X et le 
second à la valeur de Y. Les éléments de chaque paire sont séparés par des points 


virgules afin de ne pas confondre la séparation des valeurs au sein de la paire, avec 
les décimales d’une valeur. 


S={1:3,5};{3;3,6};{4;4;;4{6;5};4{7;6,6},4{8;6,8}} 


Représentons ces données à l’aide d’un nuage de points (figure 1) où, par 
convention, la valeur X se lit en abscisse et la valeur Ÿ en ordonnée. Ainsi, la paire qui 
correspond au point À sur le nuage de points est la première paire de S. 


La valeur X = 1 se lit en abscisse et la Valeur Y = 3,5 se lit en ordonnée. Il en va de 
même des cinq autres paires. Une main « experte » (celle du logiciel) a également 


traré nina drnita antra lae nninte : r'aet la drnita da rânraceinn ni draita da tandanra 
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co 


4. A={1:3,5} 


+ 


Droite de régression 


Nous verrons un peu plus loin comment le tracé de cette droite peut s'effectuer 
mathématiquement et quelles sont les propriétés de la droite de régression. Toutefois, 
il convient de noter dès maintenant que la relation ainsi établie entre X et Y n’est pas 
nécessairement linéaire. Pour le montrer, prenons un nouvel exemple. 


Exemple 2 : Soit les données ci-dessous relatives aux deux variables X et Y. Cette 
fois le nuage de points évoque davantage une courbe logarithmique qu'une droite 
linéaire. C’est pourquoi l’on a demandé à EXCEL de tracer une courbe de régression 
et que le logiciel a choisi un ajustement par une courbe de régression 
logarithmique, donc non linéaire. 


T={1:0,1;;:{2:0,8};:43;1,1};4€4;1,4};{5 ; 1,6}; {6 ; 1,8}} 


Quoique la très grande majorité des relations réelles entre variables ne soient pas 
linéaires, c'est néanmoins l’ajustement linéaire qui est retenu dans de nombreux cas, 
pour trois raisons : 


1)  L'ajustement linéaire est beaucoup plus simple à traiter mathématiquement. 


2) Beaucoup de relations sont approximativement linéaires si l’on prend un intervalle 
de variation suffisamment petit. 


3) Certaines relations peuvent être rendues linéaires par un changement de variable 
approprié (généralement une transformation logarithmique). 
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logarithmique 


Courbe de régression 


[N) 
uw d 
EN 


113 


Pour finir, notons qu'il n'existe pas nécessairement de liaison entre deux variables, 


comme l'illustre l'exemple suivant d'absence de relation. 


Exemple 3 : Soit les données ci-dessous relatives aux deux variables X et Y. Cette 
fois le nuage de points évoque davantage un amas de points. On peut certes y voir 
une forme non linéaire (si on relie les points on obtient un dessin de maison), mais il 


resterait alors à interpréter cette relation. 


U=41:1}:(1:2}:2:3;:68:;2;;,68;1};€2;1} 


3,5 

ù dé 

C={23} 

3 + 
2,5 

2 + + 

5 

1 + + + 
0,5 

0 T T T 

0 0,5 1 1,5 2 2,5 3 
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B — La droite de régression linéaire 
1) Définition 


Le point moyen est le point qui a pour coordonnées la moyenne de X et la moyenne de 
Y. On l'appelle aussi le centre de gravité. 


La droite de régression est une droite qui passe par le point moyen. C'est aussi la 


droite qui minimise la somme des carrés des écarts des observations. Une fois 
connue, l'équation de cette droite permet de résumer la série et de faire des prévisions. 


Exemple : Soit la série S déjà étudiée au paragraphe A 
S={1:3,5};{3;3,6;;{4 ;,4};{6;5};,{7; 6,6}; {8 ; 6,8}} 


La moyenne de X est donnée par (le « double barre » sur le X indique qu'il s’agit d’une 
moyenne marginale) : 


x-1+8+4+6+7+8 _ 29 
6 6 
La moyenne marginale de Y est donnée par : 


= 4,833 


3,5+3,6+4+5+6,6+6,8 29,5 
6 6 


4,91 


y = 


Le graphique de la figure 4, illustre le point moyen : 


Point moyen = { 4,83 ; 4,91} 


N 
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2) Calcul des coefficients 


L'équation de la droite de régression se calcule ainsi. Soit la droite d’équation : 
y=ax+b 


Si nous voulons que cette droite soit ajustée à un nuage de points dans le plan {X,Y}, il 
faut calculer les coefficients a et b en appliquant les formules suivantes : 


a = —;7— b=y-ax 
© 


Par conséquent, la formule détaillée de a est : 


SR 


UMS 1 M3 


S 
| 


SE 


Exemple : calculons a et b dans le cas de la série S : 


S ={{1;3,5},4{3 ; 3,6},{4 ;4},{6,; 5},{7 ; 6,6},{8 ; 6,8}} 


Pour faciliter les calculs, adoptons la disposition en tableau suivante : 


Tableau 1 
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Ensuite, calculons les sommes dont nous avons besoin dans la formule de a : 


n n n n n 
Y x.=29 Z p.=29,5  Y x.y. =160,9 > x°=175 > y” =156 
: I 2 [A : l'1 a î : î 
Eh i=1 i=1 i=1 i=1 
calculons a : 

1 n == 

LL _ 160,9 29 29,5 

er dé 6 

DE ae = D — = 0,5258 
15 2-() 175 -(2) 
n =] 6 6 


=. 


Une fois a connu, on en déduit b : 


b=y-ax -[2) 0,5268 (À) = 2,37512 
6 6 
L'équation de la droite de régression est donc : 


y = ax+b = 0,5258x +2,37512 


La figure 5 ci-dessous illustre l'équation de cette droite. Nous vérifions à nouveau que 


cette droite passe par le point moyen. 


Point moyen = { 4,83 ; 4,91} L 


?] y =ax+b=0,5258x + 2,37512 
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3) Utilité de la droite de régression 


La droite de régression sert d’abord à vérifier l’existence d’une relation linéaire et la 
nature de celle-ci. Ainsi, dans notre exemple, le coefficient directeur de la droite 
a=0,5258 est positif ce qui dénote une relation positive : x et y varient dans le même 
sens. 


La droite de régression sert ensuite à faire des prévisions. Ainsi, nous pouvons 
utiliser l'équation de la droite de régression pour calculer des valeurs de Ÿ associées à 
une valeur de X que l’on se donne. 


Exemple 1 : Soit la série S, déjà étudiée précédemment et supposons que l’on veuille 
connaître la valeur Ÿ qui correspond à X = 12 que l’on se donne et qui ne figure pas 
dans S. Dans ce cas, il suffit de remplacer X par dans l'équation de la droite pour 
obtenir Y : 


y =0,5258 x(12)+2,37512 = 8,6847 
Exemple 2 : Soit la série S, déjà étudiée précédemment et supposons que l’on veuille 


connaître la valeur X qui correspond à Y = 5 que l’on se donne. Dans ce cas, il suffit de 
remplacer Ÿ par dans l'équation de la droite pour obtenir X : 


5 =0,5258x + 2,37512 > x =4,99212=5 
C -— Le coefficient de corrélation 


1) Définition et calcul 


Le coefficient de corrélation mesure la plus ou moins grande dépendance entre les deux 
caractères X et Y. On le désigne par la lettre "r" et il Varie entre -1 et +1 : 


2 cov(x, y) 


6 © 
X y 


Plus r est proche de +1 ou de -1, plus les deux caractères sont dépendants. Plus il est 
proche de 0, plus les deux caractères sont indépendants. 


Exemple : Calculons le coefficient de corrélation de la série S : 


n 
Se 160,9 _ 29, 29,5 
= = 6 __6 06 = 0,9371 


=] 
aa 12% 5.22 11-27 5 je 175 {29Y |156 [29,5Ÿ 
x y 

LEO ONE 
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2) Coefficient de corrélation et coefficient de détermination 


Il existe un lien entre le coefficient de corrélation et la droite de régression. Ce lien est 
donné par la formule : 


2 
R°=axa' 


où a est le coefficient de la droite de régression de y en x (c’est-à-dire la droite de 
régression de la forme y = ax+b) et où a’ est le coefficient de la droite de régression de 
x en y (c'est-à-dire le coefficient de la droite de régression de x en y). 


Le terme R? est appelé coefficient de détermination. En pratique, il n'est pas 
nécessaire de passer par la formule R°=axa . Il suffit en effet de calculer r et de 
l’élever au carré. 


Exemple : Calculons le coefficient de détermination de la série S : 


R'=rxr=0,9371 =0,8781 


Contrairement ou coefficient de corrélation, qui varie entre -1 et +1, le coefficient de 
corrélation varie entre 0 et 1. Il sert aussi à mesurer la corrélation des deux variables, 
mais ne donne aucune indication sur le sens (positif ou négatif) de la corrélation. Plus il 
est proche de 0, plus la corrélation est faible. Plus il est proche de 1, plus la corrélation 
est élevée. 


3) Corrélation et causalité 


Le plus souvent, l'étude des relations entre deux variables a pour but plus ou moins 
avoué d'apprécier dans quelle mesure l’une des deux variables — dite variable 
explicative — exerce une influence causale sur l’autre — dite variable expliquée. 


Malheureusement, ainsi que nous l'avons indiqué en introduction, la corrélation 
n'implique pas la causalité, pour diverses raisons que nous allons maintenant 
approfondir. 


La figure 6 illustre trois liens possibles entre les deux variables X et Y, liens qui sont tous 
compatibles avec un coefficient de corrélation identique, lequel ne permettra donc pas 
de discriminer entre les trois. 
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Figure 6 


CLL LI] 
jet" .… 
0 Dé dé ° . 

? e . © e 


CLCEZITS 
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(a) causalité (b) Variable Z (c) Variable Z 
influençant influençant Y 
X et Y 


Source : D'après David S. MOORE et George P. McCABE, 2001, Introduction to the Practice of Statistics, 
W.H. Freeman & Company, New York, 3ème édition, page 208. 


Sur la figure 6, les lignes en pointillés indiquent l'existence d’une corrélation ente les 
variables X et Y. Les lignes en trait plein indiquent l'existence d’une causalité et la flèche 
indique le sens de la causalité. Dans le cas (a), nous voyons que la causalité sous- 
jacente va de X vers Y, c'est-à-dire que les variations de X expliquent celles de Y. La 
corrélation observée est donc bien le résultat d’une causalité directe. 


Cependant, comme la causalité n’est pas observable, on ne peut pas conclure à 
l'existence d’une causalité de X vers Y à la simple mise en évidence d’une corrélation. 
En effet, comme l’illustrent les cas (b) et (c) de la figure 6, la corrélation peut aussi 
s'expliquer différemment. 


Dans le cas (b), c'est une variable Z, qui peut être inconnue ou connue mais non prise 
en compte, qui influence simultanément X et Y. Dans ce cas, on observera 
effectivement une corrélation entre X et Ÿ, mais cette corrélation n'impliquera pas de 
causalité de X vers Y. 


Dans le cas (c), c’est une variable Z, qui peut être inconnue ou connue mais non prise 
en compte, qui influence uniquement Y. Dans ce cas, on observera effectivement une 
corrélation entre X et Y, mais cette corrélation n’impliquera pas de causalité de X vers Y, 
puisque la variation de X est autonome et celle de Ÿ causée par la variable Z. 


En conclusion, il faut retenir que corrélation n’est pas causalité. 
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2 ° Séries quantitatives avec observations groupées 


Lorsque les observations sont fournies groupées par valeurs, il est possible de se 
ramener au cas d’une série quantitative où les observations sont connues 
individuellement. 


En revanche, lorsque les observations sont fournies groupées par classes, une partie de 
l'information a été détruite au profit d’une information plus synthétique, mais on ne peut 
pas revenir aux paires de valeurs individuelles. On est alors obligé d'analyser les 
tableaux avec des formules modifiées, que ce soit pour la droite ou la courbe de 
régression ou pour le coefficient de corrélation. En fait, étant donné la lourdeur des 
calculs, il est sage de s’en tenir au calcul du coefficient de corrélation. En outre, 
comme nous le verrons, il existe un autre moyen de vérifier l'existence d’une corrélation, 
basé sur le calcul du produit des fréquences conditionnelles et appelé « test 
d'indépendance ». 


A -— Cas des données groupées par valeurs 


Lorsque les observations sont fournies groupées par valeurs, on a le choix entre deux 
procédures : 


1) Se ramener au cas des données connues individuellement. 


2) Utiliser la même procédure que lorsque les données sont groupées par classes. 


Exemple : Soit le tableau de données suivant où les observations sont groupées par 


valeurs : 


On peut sans difficulté se ramener au tableau 1 et calculer le coefficient de corrélation 


comme expliqué dans la section 1. 
Tableau 3 


ÉRIRIRIEIEIEIEIEIE] 


Ge. 
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On calcule ensuite le coefficient de corrélation : 


ii ne 


2, 1 - = M = 0.4485 
O © n =\2 n =\2 À 2 ; 
xT y 1 St 1 at 128 (36) /296 (56 
11 11 11 11 

Re nl 


B —- Cas des données groupées par classes 


n 
Dre 188 _36, 56 


Lorsque les observations sont fournies groupées par classes, on peut soit calculer un 
coefficient de corrélation avec une formule modifiée pour tenir compte des effectifs 
groupés, soit faire un test d'indépendance. 


1) Le coefficient de corrélation 


La formule du coefficient de corrélation devient : 


Exemple : Soit le tableau statistique ci-dessous : 


Pour effectuer les calculs, il est nécessaire de faire un tableau disposé comme ci-après : 
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(2x1,5) + 


(4x6)=27 (4x62)=148,5 (4x12)=54 
(8x1,5) + (8x1,52) + (8x12) + 
(3x6)=30 (3x62)=126 (3x48)=240 


(8x12)=102 | (3x48)=192 


oc? = 728 _34 6 - 8,22 
17 b) 

Variances 
bc of = e 1124 = 4,91| | marginales 

P q —— ( \ 

cov(x,y}=-LS SAXY | PC: 100 57 = _2 429 
M 17 (17 17) 
d) Coefficient de corrélation 
CoVv{x, = =D; 
r = SOVCXY) _ 2,429 2429 38 


0,0,  V8,22x44,91 7 2,87:2,21 
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La partie en pointillés du tableau 5, reprise ci-après dans le tableau 6, contient les 
informations initiales du tableau 4, ainsi que : 


eo LE) 


[0-3 [3-9] 


3 
[4-12] a me | 


1) Les centres de classes qui ont été cerclés. 


2) Le produit des centres de classes en gras à l'intersection des lignes et des colonnes. 


À noter que le tableau 5 facilite également les calculs des moyennes et des variances 
conditionnelles (voir les calculs ci-après) : 


c) Moyennes conditionnelles 


x --68 y, = 27-45 
R = À =4,57 = T-27 
d) Variances conditionnelles 
(x) = 46,24 0? = -46,24-5,76 
(x) - 20,89 6! = 2$-20,80 -8,82 
(7,)° -20.25 02 = _ 20,25 = 4,5 
(72) = 7,44 oc =126 744-401 


ÿ1 11 
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Comme nous l’avons déjà indiqué, lorsque les données sont groupées par valeurs, on 
peut aussi appliquer la procédure juste décrite pour le cas des données groupées par 
classe. On obtient alors le même résultat qu’en appliquant la procédure d'identification 
des données individuelles, mais les calculs sont plus fastidieux. 


2) Le test d'indépendance 


Deux variables sont indépendantes si et seulement si : 


Pour que l’on puisse conclure à l'absence d'indépendance. Il est donc généralement 
plus rapide de vérifier l'absence d'indépendance que d'établir l'indépendance. 


Exemple : Soit le tableau statistique ci-dessous : 


Vérifions que les deux variables X et Y sont totalement indépendantes : 


_ 18x16 20 - 20*32 12 - 18*32 10 - 30x16 
48 48 48 48 


6 


Remarques : 


1) Le test d'indépendance convient bien pour des petits tableaux. || devient fastidieux 
pour tableaux supérieurs à 2 x 2. 


2) Le test d'indépendance peut être utilisé aussi bien pour des séries quantitatives 
que pour des séries qualitatives. 
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3 e SÉRIES QUALITATIVES 

A - Le coefficient de corrélation de rang de SPEARMAN 

Lorsque les séries sont qualitatives, il arrive que les modalités d’un des deux 
caractères soient ordinales (voir le chapitre 1), autrement dit que l’on puisse opérer 
un classement sur ces modalités. Dans ce cas, au lieu de calculer la corrélation entre 


les valeurs comme on le fait pour une variable, on calcule la corrélation entre les rangs des 
modalités. On calcule alors un coefficient appelé coefficient de corrélation de rang de 


SPEARMAN. 


Voici la formule : 


6ÿ d° 
_4_ 
re n(n? -1) 


où d; est la différence entre les rangs des valeurs correspondantes de X et de Yetn le 
nombre d'observations. 


Exemple : ci-dessous, les notes attribuées par deux enseignants à 5 copies. 


Tableau 8 


On veut savoir si le classement qui résulte de la notation de l'enseignant 1 est 
cohérent avec le classement qui résulte de la notation de l'enseignant 2 
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On crée alors un tableau où les rangs des notes remplacent les notes. On calcule 


ensuite la formule de SPEARMAN. 


Interprétation : si la corrélation est parfaite, r,,=1. Plus les rangs sont différents, plus 
rs tend vers 0. 
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B — Le test du Khi-carré de PEARSONS 


Lorsque les caractères sont qualitatifs l'étude de la corrélation se fait par un test 
statistique développé par Karl PEARSONS et appelé test d'indépendance du "Khi 
deux". Pour introduire ce test, considérons l'exemple suivant. 


Exemple : 100 consommateurs sont questionnés sur leurs préférences à l'égard de 
4 variétés d'un produit (A, B, C et D). On leur demande : "Parmi ces 4 produits, quel est 
celui que vous préférez ?". Ces consommateurs sont groupés en deux catégories, les 
moins de 20 ans et les plus de 20 ans, afin de déterminer si l'âge a une influence sur 


la préférence. 
Tableau 10 


: Moins Plus 
Produits de 20 ans | de 20 ans Total 
A 10 15 25 
B 10 25 35 
C 15 5 20 
D 20 (0) 20 
Total 55 45 100 


Le tableau se lit ainsi : 10 personnes de moins de 20 ans préfèrent le produit À, 15 
personnes de plus de 20 ans préfèrent le produit À, 25 en tout préfèrent le produit A. 


Si l'âge n'a aucune influence sur le choix, les 2 premières colonnes devraient être 
proportionnelles à la troisième. On va donc calculer deux colonnes fictives, mais 
proportionnelles à la troisième, afin d'avoir les effectifs qui correspondent à une 
indépendance de l'âge sur le choix. 


Dans la formule ci-après, la fréquence des plus de 20 ans est 45/100. Celle des moins 
de 20 ans : est 55/100. N, est l'effectif théorique correspondant à une répartition 
homogène. Enfin, n; est l'effectif observé. 
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Tableau 11 


(55/00) x 
25=13,75 

(55/00) x 
35 =19,25 4,448 


(sshonx 1,454 


1,02272 


(551 00) x 


20=11 7,3636 


(454 00) x 14,0625 
25 =11,25 

ENT 85,5625 
(45100) x 

20=9 

(451100) x 

20=9 


OO Ou »|0 OO ww > 


Par définition : x” (calculé) = 


En appliquant cette définition aux données du tableau 11, on obtient : x” (calculé) 31,74 


Une fois que l’on connaît le khi-carré calculé, on doit le comparer avec la valeur du khi- 

deux issue de la distribution du khi-carré (voir le tableau 12 ci-dessous). Ici, le nombre 
de « degrés de liberté » est égal à [8 (nombre d'observations) moins 2 (nombres de 
variables)], ce qui donne 6. Ensuite, nous devons choisir la probabilité de fiabilité du 
test : 5% de chances de se tromper (deuxième colonne), 1% (troisième colonne) et 
1 pour 1000 (quatrième colonne). Si nous choisissons P = 0,05, nous avons donc : 


Tableau 12 


2 2 
Probabilités X0,05 7 VESTE. Pdlee 4574 
À 

— . = ne 

mr de P=005 P=-001 P=0001 
1 B.84 (6.64 10.83 ; 
> Ga ra Ce qui nous permet de conclure que la 
5 pe Î135 627 répartition des préférences est 
_ L _ suffisamment différente d’une répartition 
< F259 1631 Er] homogène pour qu'on puisse 
7 law 1348 Pa32 raisonnablement se fier à l’idée que l'âge 
. _ e me. a une influence sur le choix du produit 
 - la ET Po 50 (avec 5% de chances de nous tromper). 
11 19.68 (24.73 3126 
12 (21.03 (26.22 (32.91 


oane @) 
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CHAPITRE 


be séries chronologiques 


1 : INTRODUCTION 
A = Définition 


Une série chronologique est une variable statistique dont les observations sont 
repérées dans le temps. 


Les séries chronologiques sont extrêmement utilisées dans les sciences sociales et, 
en particulier, en économie. 


Exemple : Le tableau 1 et le graphique 1 ci-dessous retrace le nombre mensuel de 
créations d'entreprises en France de janvier à juin 2005. 


Tableau 1 : Évolution mensuelle des créations d'entreprises en France 


a Nombre de créations d'entreprises 


26790 
25684 


25050 


26566 


Source : Insee Conjoncture, Bulletin d'informations rapides, numéro 2005, 11 juillet 2005. 


Figure 1 : Évolution mensuelle des créations d'entreprises en France 
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B- Périodicité 


Les séries chronologiques peuvent être annuelles, trimestrielles, mensuelles, 
hebdomadaires, journalières et même infra-journalières. 


Exemple 1 : Le cours d’une action peut être connu heure après heure et même 
minute après minute, voire de façon instantanée. Le graphique de la figure 2 ci-après 
retrace ainsi l’évolution du cours de l’action France Telecom, de minute en minute, le 
12 juillet 2005, entre 9h et 10h. 


Figure 2 : Cours de l’action France Telecom 


EU le 12/07/2005 de 9h à 10h:05 


M À 


nl À 
24.674 L a H L., 


24.574 À 
24.52 


+ 
CS:0S G5:1C 26:15 C5:20 26:25 C6:30 26:35 C5:40 26:45 CS:5C 26:55 10:00 10:05 
Temps 


Source : Données de France Telecom. 


À l'inverse, certaines données sont disponibles beaucoup plus rarement. On aura 
alors des observations sporadiques qui permettront de retracer l’évolution sur une 
longue période, mais avec une périodicité irrégulière. 


Exemple 2 : Le graphique de la figure 3 ci-après, extrait d’une étude de l'Institut 
Nationale d'Études Démographiques (INED), montre l’évolution du nombre des 
hommes depuis l’an zéro. Un graphique fascinant... Et qui en même temps fait 
sourire. Il illustre en tous cas notre propos : certaines séries chronologiques n’ont pas 
une périodicité régulière. Dans ce cas particulier, le graphique présenté a nécessité le 
concours et l'ingéniosité de centaines de chercheurs en sciences sociales 
(paléontologues, historiens, statisticiens, etc.). Il reste approximatif mais il est 
significatif de la volonté insatiable de l’homme de connaître ses origines... Et du rôle 
indispensable de la statistique descriptive dans cette entreprise. 
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Figure 3 : Évolution du nombre des hommes depuis l'an O 
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Source : François HERAN et Laurent TOULEMON, « La population mondiale... et moi ? » 
Une exposition à la Cité des sciences et de l'industrie à Paris, INED, Population et 
Sociétés, n° 412, mai 2005 


Pour représenter graphiquement les séries chronologiques, on mettra toujours le 
temps en abscisse et les valeurs de la variable en ordonnée. La représentation la plus 
habituelle est le nuage de points. Mais il est fréquent que l’on relie les points entre 
eux. Les exemples des figures 1 à 3 illustrent ce dernier point. 


C-— Tendance, variations saisonnières et accidentelles 


L'observation des séries chronologiques permet de distinguer trois composantes 
principales. La première de ces composantes, la tendance ou trend, donne le sens de 
l’évolution sur la durée. La seconde composante, ce sont les variations saisonnières 
ou périodiques. La troisième composante, ce sont les variations accidentelles. 


Ces trois composantes ne sont pas toujours simultanément présentes dans une série 
chronologique. Certaines séries n'ont pas de tendance, d’autres n'ont aucune 
composante périodique. D’autres enfin, ne connaissent aucune variation accidentelle. 


Dans la suite de ce chapitre, nous étudions les méthodes qui permettent d'identifier et 
de quantifier ces trois composantes. 
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D - Modèle multiplicatif et modèle additif 


L'observation des séries chronologiques permet de distinguer deux grand types de série : 
celles qui se conforment au modèle multiplicatif et celles qui se conforment au modèle 
additif. Dans le modèle additif, les variations autour du trend demeurent dans une bande 
de variation à peu près constante (voir la partie (a) de la figure 6). Dans le modèle 
multiplicatif, au contraire, les variations autour du trend s’amplifient (voir la partie (b) de la 


figure 6). 
(a) Modèle additif | (b) Modèle multiplicatif 


8 
N 


amplitude 18 Amplitude 


doissame 


18 +— constante 


Le plus simple pour déterminer le modèle le mieux adapté à une série chronologique 
particulière est de faire un graphique, d'y ajouter le trend linéaire et d'observer les 
fluctuations autour du trend. Si ces fluctuations sont régulières, il s’agit d’un modèle 
additif. Si, au contraire, elles s’amplifient, il s’agit d'un modèle multiplicatif. 


Remarque : Dans le cas de données saisonnières (par exemple des données 
trimestrielles), on peut aussi calculer la moyenne annuelle de la variable et, ensuite, 
pour chaque trimestre, on retranche de la valeur du trimestre la valeur de la moyenne 
annuelle et on obtient un écart. Il suffit alors de comparer les écarts. Si les écarts ne 
cessent d'augmenter avec le temps, on en conclut que le modèle est multiplicatif. Sinon, 
c'est que le modèle est additif. 
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2 + DÉTERMINATION DU TREND D'UNE SÉRIE CHRONOLOGIQUE 


Le « trend », autrement dit la tendance, est ce qui, au-delà des variations 
saisonnières ou accidentelles d'une série, indique le sens de son évolution. 
Autrement dit, le trend nous renseigne sur le fait de savoir si la variable augmente, 
diminue ou reste stable de façon tendancielle. 


Pour déterminer le trend ou la tendance d’une série, il y a deux méthodes principales : 
1) la régression linéaire, où l'on calcule les coefficients a et b d'une droite, qui 
représentera la tendance, et 2) la méthode des moyennes mobiles. 


A - La détermination du trend par la régression linéaire 


On calcule les coefficients a et b de la droite de régression comme expliqué au 
chapitre 6. 


Exemple : Soit le tableau suivant, qui donne l’évolution d’une série chronologique en 
fonction du temps, repéré par l'indice t. 


Le graphique en « nuages de points » de cette série chronologique est illustré par la 
figure 5. 


Figure 5 
18- 7 
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Nous allons déterminer le trend de cette série par une droite y = ax+b, en calculant 


les coefficients d'après les formules du chapitre 6, rappelées ci-après (ou t tient le 
rôle de x et z celui de y). 


É,Z, MZ 
D) Lt 


d S Ÿ 2 6 2 
L t Y 1/=91 
1.2. = 265 = i rl 
ne _i=1l _21_; Zz-i=l = & _9 714 et 
7 dé 7 
Ez,t,-ntz 
a= = OR TR Sl nS b=z-at=9,714-2,17x3=3,2 
2. } 91-7x3 28 
En 


On obtient donc l'équation du trend suivante : 


f, = at+b = 2,17+3,2 
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La figure 6 ci-après montre à la fois le nuage de point et la droite de régression qui 
représente le « trend ». 


Figure 6 


18 - 
Valeurs 


Y = 2,18t +3,2 


B- La détermination du trend par la méthode des moyennes mobiles 


La méthode des moyennes mobiles consiste à calculer la moyenne des valeur qui 
entourent chaque valeur et à remplacer la valeur par cette moyenne. 


Exemple : Soit les données du tab leau 4 qui donne l'évolution du cours de clôture 
de l’action France Telecom du 13/06/05 au 13/07/05 (en euros). 


La troisième colonne donne les moyennes mobiles d'ordre 2 qui sont calculées en 
prenant les moyennes des cours deux à deux. 


À titre d'exemple, les deux premières moyennes mobiles d'ordre 2 s’obtiennent ainsi : 


24,66 + 24,61 _ 24,635 24,61+ 24,73 


= 24,67 
2 2 


Et ainsi de suite pour les autres moyennes mobiles. 
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Tableau 4 : Cours de clôture de l’action France Telecom 


12/07/2005 24,635 | 
11/07/2005 24,67 
08/07/2005 24,63 
07/07/2005 24,27 
06/07/2005 24,09 
05/07/2005 24,08 
04/07/2005 24,09 
01/07/2005 24,23 
30/06/2005 24,22 
29/06/2005 23,98 
28/06/2005 23,20 
27/06/2005 22,59 
20/06/2005 22,04 
17/06/2005 22,90 
16/06/2005 22,81 


15/06/2005 22,48 22,58 22,70 
13/06/2005 22,74 22,67 22,61 


Source : Données de France Telecom. 


La troisième colonne donne les moyennes mobiles d'ordre 3 qui sont calculées en 
prenant les moyennes des cours trois à trois. 
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À titre d'exemple, les deux premières moyennes mobiles d'ordre 3 s’obtiennent ainsi : 


24,66 + 24,61+ 24,73 _ 24.666 SRE L ESS = 24,623 
3 3 


Et ainsi de suite pour les autres moyennes mobiles. 


Pour avoir le trend mobile, il suffit de reporter sur un graphique les moyennes 
obtenues. La figure 7(a) représente la série initiale et le trend obtenu à l’aide de la 
méthode des moyennes mobiles d'ordre 2. La figure 7(b) représente la série initiale et 
le trend obtenu à l’aide de la méthode des moyennes mobiles d'ordre 2. 


Figure 7 (a) : Moyenne mobile d'ordre 2 
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Figure 7 (b) : Moyenne mobile d'ordre 3 
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Lorsque la méthode de détermination par le trend linéaire apparaît trop grossière, ou 
lorsque par exemple il n’y a pas de raison de penser qu'il existe une composante 
saisonnière et qu'on veut juste gommer les variations accidentelles, alors la méthode 
des moyennes mobiles peut être un bon moyen d'obtenir une série ajustée ou une série 
lissée comme on dit parfois. D'autant plus que la méthode est facile d'emploi et 
disponible dans les fonctions des logiciels comme EXCEL. 


Le plus simple, lorsque l’on fait les calculs avec un tableur, est de déterminer le trend 
par les deux méthodes. 


À noter que plus la série est longue, plus on peut augmenter l’ordre de calcul des 
moyennes. 


3 e LES VARIATIONS SAISONNIÈRES 


A- Vocabulaire 


Beaucoup de phénomènes, en particulier les phénomènes économiques, ont une 
composante saisonnière. Certains produits se vendent mieux l’été que l'hiver, d’autres 
se vendent mieux aux périodes de vacances scolaires. L’appellation de variation 
saisonnière ne signifie pas pour autant que la composante saisonnière se répartisse sur 
l’année, même si c’est souvent le cas. Il y a aussi des récurrences de type saisonnier à 
l’intérieur d’un mois, d’une semaine, voire d’un jour. Certains produits se vendent mieux 
certains jours et à certaines heures. 


On est ainsi amené à calculer une composante saisonnière, puis un coefficient 
saisonnier, afin de déterminer la série corrigée des variations saisonnière ou série 
CVS. L'intérêt de ce calcul est d'obtenir une série chronologique dont l’évolution est 
débarrassée de la composante saisonnière qui parfois masque la tendance. Dans le cas 
souvent cité du chômage, par exemple, on peut avoir l'impression d'une augmentation 
où d'une diminution tendancielle du chômage alors qu'il y a seulement des embauches 
ou des mises à pied qui ont lieu chaque année à la même période et avec la même 
ampleur. 


On parle ainsi de « désaisonnalisation du taux de chômage », laquelle atténue les 
variations dues aux embauches pendant l'été et aux mises à pied pendant l'hiver dans 
des secteurs d’activité comme l’agriculture et la construction. 


Pour obtenir une série corrigée des variations saisonnières, ou série CVS, on procède 
en trois étapes : (1) on calcule la composante saisonnière, (2) on en déduit le coefficient 
saisonnier et (3) on retranche le coefficient saisonnier de la série originale. 


Dans l'exemple qui suit, nous supposerons que la série suit un modèle additif, 
l'application au cas multiplicatif étant légèrement différente (voir le livre de Bernard PY, 
Statistique descriptive, mentionné en bibliographie, pour l’étude du cas multiplicatif). 
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B- Les étapes du calcul de la série CVS 


Ci-après, les étapes du calcul de la série CVS sont détaillées, puis appliquées à un 
exemple concret : 


1) Détermination de l'équation du trend par régression linéaire. 


2) Calcul des coefficients saisonniers. 


3) Détermination de la série CVS. 


Exemple : Soit le tableau suivant, qui donne l'évolution d’une série chronologique 
trimestrielle. 


Tableau 5 


2003 


RE AE RE SEE 
ENRSESERIENRSEIESERIENENES 


Le graphique de la figure 6, qui montre la série et son trend (pour le calcul de l'équation 
du trend, voir ci-après), révèle deux caractéristiques, qu'il nous est nécessaire de vérifier 
pour employer la méthode proposée : 


1) D'une part, la série étudiée suit un modèle additif. En effet, les variations autour du 
trend ne semblent pas s’amplifier avec le temps. 


2) D'autre part, il existe bien une composante saisonnière, ici trimestrielle, qui se 
superpose à une tendance à la hausse. On note en effet qu’à l'intérieur de chacun des 
trois cycles annuels, la variable débute à un niveau faible au premier trimestre, puis 
augmente à chaque trimestre pour atteindre un maximum au dernier trimestre, avant de 
repartir à la baisse au début de l’année suivante. 
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zs- Valeurs 


1) Détermination de l'équation du trend 


Les calculs intermédiaires sont aisément effectués à l’aide du tableau 6 ci-après. 


12 
ZX t,y,=1234 EM _— 
i= y=i=l 2 213,1667 
12 12 
12 
2 t, 2 
== 2 6,583 20}; 680 
12 j = 
= ——— 214755 b=y-at=3,157 
x -n(1) 


On obtient donc l'équation du trend suivante : 


f=at,+b=1,447551, +3,75757576 
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Tableau 6 


216 


ET 
2 | 
56 | 
__288 | 
ER 
__216 | 


2) Calcul des coefficients saisonniers 


Pour calculer les coefficients saisonniers, il faut d’abord isoler la composante 
saisonnière de la série. Pour ce faire, il convient de calculer les valeurs tendancielles, 
soit f, pour i =1 à 12, grâce à l'équation du trend, puis de retrancher f, de y; 


Par exemple, quand i = 1,on a: 


Î = 1,44755245 x1+3,75757576 = 5,20512821 


La composante saisonnière quand t=1 est donc : 


S, = y,— f. = 2-5,20512821 = -3,205128205 


En réitérant le calcul pour les 12 valeurs, on obtient le tableau 7 : 
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Tableau 7 


5,205128205 


Et 
RE VE EE 
M7 TE 
RE OK: 


Les 4 coefficients saisonniers s’'obtiennent en faisant la moyenne arithmétique des 
composantes saisonnières (dernière colonne du tableau, Si) pour 2002, 2003 et 2004. 
On obtient : 


C1= (1/3) S1+S5+S9) = -3,205128205+ -8,995337995+-6,785547786 = - 6,328671329 
C2 = (1/3)(-2,652680653+-6,442890443+ -6,233100233) = - 5,10955711 
C3 = (1/3)(5,8997669+8,10955711+2,871794872) = 4,776223776 


C4 = (1/3)(8,452214452 +8,662004662+2,871794872) = 6,662004662 


On remarquera que la somme C1+C2+C3+C4 est pratiquement égale à zéro. Dans le 
cas contraire, il faudrait appliquer un coefficient correcteur à chaque coefficient 
saisonnier. La formule de ce coefficient correcteur est : 
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On obtient donc un coefficient saisonnier corrigé, C;: 


C=C-p 


i i 


3) Détermination de la série CVS 


La série corrigée des variations saisonnières, dite « série CVS » s'obtient en retranchant 
les coefficients saisonniers du trend. Désignons par y;* la série CVS : 


k c' 
PERTE 


où C; représente le coefficient saisonnier, éventuellement corrigé (ici cela n’a pas été 
nécessaire). La dernière colonne du tableau 8 ci-après donne la série CVS. 


Le graphique illustré par la figure 9 fait apparaître que la série CVS épouse davantage le 
trend que la série originale. C’est normal puisque l’on a effacé les variations saisonnières. 


a ce 


1 
De | msn | 
RE PE M ME 
PE AE 7 MIE 
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Figure 9 


30 - 


Série CVS 


25 - Trend 


Série originale 
20 - 


On notera néanmoins que la méthode est loin d’être parfaite. En effet, les variations 
saisonnière sont atténuées mais non supprimées. Cela vient du fait que la méthode 
ne permet pas de décomposer très finement les variations saisonnières et les 
variations accidentelles que nous allons étudier maintenant. 


4 e LES VARIATIONS ACCIDENTELLES 


Les variations accidentelles sont ce qui reste lorsqu'on a enlevé le trend de la série 
ajustée des variations saisonnières. Comme on vient de le voir, la décomposition 
entre les variations accidentelles et les variations saisonnières est loin d’être parfaite. 


» * 
cb 


Exemple : Reprenons les données de l'exemple précédent et calculons la série des 
Variations accidentelles en appliquant la formule. 
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On obtient alors le tableau 9 et la figure 10 ci-après : 


1 -3,123543124 
2 -2,456876457 
3 -1,123543124 
4 -1,79020979 

5 2,666666667 
6 1,333333333 
7 -3,333333333 
8 -2 

9 0,456876457 
10 1,123543124 
11 4,456876457 
12 3,/9020979 


Inmestres 


La somme des 12 éléments de cette série 
donne un nombre pratiquement égal à zéro. 
Cela signifie qu’il y a conservation des aires 
(c'est-à-dire que les hausses sont compensées 
par les baisses). On peut d'ailleurs le vérifier 
sur le graphique. 


voisié 0 


En indices 


CHAPITRE S 


La indices 


1 : INTRODUCTION 


A- Définition et exemples 


Un indice est une mesure de la variation d'une grandeur comparée à une valeur de 
référence égale à 100 et appelée « base ». 


Exemple 1 : Selon l'INSEE, l'indice des prix à la consommation de la France est 
égal à 112,5 en 2008 (base 100 en 1998). 


L'avantage de cette formulation est de permettre une lecture immédiate de la variation 
des prix entre 1998 et 2005 : entre ces deux dates, les prix ont augmenté de 12,5%. 


Remarque : certains indices ne sont pas exprimés par rapport à une base 100, mais 
par rapport à une base 1. 


Exemple 2 : L'indice de trafic routier en Ile-de-France, dit « indice SIER », 
(Service Interdépartemental d'Exploitation Routière) est égal à 1 quand le trafic est 
fluide, c'est-à-dire quand il faut en moyenne 1 minute pour faire 1 km. Si l'indice est 
égal à 2, cela signifie que les temps de parcours sur le réseau sont 2 fois plus 
longs que si le trafic est fluide. S'il est égal à 3, ils sont 3 fois plus longs et ainsi de 


suite (Source : www.sytadin.equipement.gouv.fr). 


Une série indice est une série divisée par une de ses valeurs et éventuellement 
multipliée par 100. 


Exemple 3 : Soit la série : 
{1,3,7,4,8,6, 11, 9} 


Supposons que l’on divise tous les éléments de la série par son troisième élément et 
que l’on multiplie par 100. La nouvelle série est une série indice, la base est le 
troisième élément de la série : 


{14,3 ; 42,9 ; 100 ; 57,1 ; 114,3 ; 85,7 ; 157,1 ; 128,6} 


On peut effectuer un changement de base en divisant la série par la premier chiffre de 
la série plutôt que par le troisième : 


{100, 300, 700, 400, 800, 600, 1100, 900} 
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Le graphique (a) de la figure 1 illustre la série indice quand la base est le troisième 
chiffre et le graphique (b) illustre la série indice quand la base est le premier chiffre. 


Figure 1 : Représentation graphique d’une série indice 


fs (a) | (b) 


On remarquera que le changement de base n’a pas d'incidence sur la forme de la 
courbe, mais seulement sur l'échelle de l’ordonnée. 


B- Indice temporel et indice de situation 


Un indice temporel est un indice qui concerne une comparaison de valeurs dans le 
temps. La base est dans ce cas la date de référence. 


Exemple 1 : Le 15/07/2005, l’action CNP Assurances (ISIN FRO000120222) a coté 
54,10 euros en ouverture et 54 euros en fermeture. L'indice de variation du cours de 
l’action sur la séance, donné par (54,1/54)*100 = 100,185, est un indice temporel, la 
base étant l'heure de l'ouverture de la séance du 15/07/2005. 


Un indice de situation, également appelé indice spatial, est un indice qui concerne 
n'importe quelle comparaison de valeurs, hormis les comparaison temporelles. 


Exemple 2 : En 2002, le nombre de victimes d'accidents de la route en France a été 
de 129 par million d'habitants, alors qu’au Portugal il a été de 165 par million 
d'habitants. L'indice de situation du nombre de victimes d'accidents est égal à 
(165/129)*100 = 127,9, si l’on prend le nombre d'accidents en France comme base. 


Bien entendu, les notions d'indices temporel et de situation peuvent s'étendre à toute 
une série. Le tableau 1 et la figure 2 ci-après illustrent la série indice de situation du 
nombre de victimes d’accidents de la route en Europe en 2002, en prenant le nombre 
de victimes en France comme base. 
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Tableau 1 : Série indice du nombre de victimes d'accidents 
de la route en 2002 (France=100) 


Figure 2 : Série indice du nombre de victimes d'accidents de la route en 2002 (France=100) 


Royaume-Uni | 
Pays-Bas | 
Suède | 
Finlande 
Allemagne 
Danemark 
Itande 
ltalie 
Autriche 
France | France = 100 
Espagne É 
République Tchèque : 
Hongrie É 


Belgique 1. 
Pologne [ 
Grèce ' | 
Luxembourg H 
Portugal ï 
0 20 40 60 80 100 120 140 


Source : Insee, Tableaux de l'Économie Française 2004-05, page 65. 
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C- Indice élémentaire et indice synthétique 


Un indice élémentaire est un indice qui renseigne sur l’évolution temporelle ou 
situationnelle (spatiale) d’une seule valeur. Il a pour définition : 
V, 
l,9 = —x100 
2 


0 


Où V, représente la valeur de référence et V, la valeur qui est comparée à la valeur 
initiale. 


Dans le cas d’un indice temporel, « O0 » représente la période référence (la base) et 
«t» la période que l’on compare à la période de référence. 


Dans le cas d’un indice de situation ou indice spatial, « O0 » représente la situation de 
référence (la base) et «t » la situation que l’on compare à la situation de référence. 


Exemple 1 : le « Ph », ou potentiel hydrogène de l’eau d'une piscine a été mesuré à 
8 h du matin. La mesure révèle qu'il est égal à sa valeur de neutralité (soit 7 sur une 
échelle qui varie de 1 à 14). Le soir à 18 h, on mesure à nouveau le Ph et cette valeur 
est alors de 5. L'indice élémentaire de la variation du Ph entre 8 h et 18 h est donné 
par : 


haie 2x100 = 71,43 


Un indice synthétique est un indice qui résume l’évolution de plusieurs valeurs ou 
qui mesure l’évolution de valeurs liées par un produit ou un rapport. 


Exemple 2 : Le prix d’un bien x est égal à 1,5 euro à la date 0. À la date t, il est égal 
à 2,3 euros. Le prix d’un bien y est égal à 2 euros à la date 0 et à 1,8 euro à la date t. 
Nous pouvons calculer les indices élémentaires d'évolution des prix du bien x et du 
bien y. Mais nous pouvons aussi calculer l'indice synthétique d'évolution du prix des 
deux biens. Pour calculer cet indice synthétique, nous allons faire une moyenne. Cette 
moyenne peut être une moyenne arithmétique ou non. De plus, nous pouvons choisir de 
pondérer chaque bien par 7 (moyenne arithmétique simple) ou par des coefficients «1, 
et a, différents de 7 mais tels que à, + a, = 1. 
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Les indices élémentaires de l’évolution des prix des biens x et y sont donnés par : 


2,3 18 
Do = 45100-16383 Wu =" x100 = 90 


L'indice synthétique le plus simple de l’évolution du prix de ces deux biens est une 
moyenne pondérée, soit : 


bo = &,lX50 + &,lYs50 


Si l'on prend a, =1/2 et a, =1/2 on obtient : 


LIX,50 + lY4r0 _ 153,3 +90 


bo 2 


= 121,65 


Soit une évolution de l'indice synthétique égale à +21,65%. 


Si l'on prend a, =1/4 et «, =3/4 on obtient : 


l, 


oO 


= To We = «153 2 x 90 = 38,325 + 67,5 = 105,8 


Soit une évolution de l'indice synthétique égale à 105,8 -100= + 5,8 % 


Si l'on prend a, =3/4 et a. =1/4 on obtient : 


l 


Lo] 


= UT UT = : x153,3+ «90 =114,975+22,5-137,475 


Soit une évolution de l'indice synthétique égale à +37,475. 
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2 + LES INDICES SYNTHÉTIQUES DE LASPEYRES, PAASCHE ET FISHER 


Les indices synthétiques les plus utilisés en économie sont les indices qui résument 
l’évolution de la valeur d’un panier de produits. Trois économistes, LASPEYRES, 
PAASCHE et FISHER, ont proposé des indices synthétiques différents pour mesurer 
l’évolution de cette valeur. 


A - Définition de la valeur d'un panier de biens 


Comment mesurer l’évolution d’une variable synthétique, la valeur d’un panier de 
produits, sachant que la valeur de chaque produit est elle-même le produit d’un prix 
par une quantité ? Pour clarifier cette question, posons quelques définitions. 


Soit Vi = p}/qjla valeur du bien i, à la date i où p/ représente le prix du bien j à la date 
tet q/sa quantité. Par exemple, si p/ = 2 euros et que q/=4 unités, on aura : 


V' = piq; =2x4=8 euros 


Maintenant, s'il y a n produits dans le panier (i= 1, n), la valeur totale du panier à la 
date t s’écrira : 


=> pa (1) 


L'évolution de la valeur du panier entre deux dates dépend de l’évolution du prix de 
chaque bien et de l'évolution de la quantité de chaque bien. || faut donc construire un 
indice synthétique qui permette d’imputer l’évolution de la valeur du panier à la 
composante prix ou à la composante quantité. Plusieurs indices peuvent être 
envisagés. 


Nous étudierons successivement les indices proposés par LASPERES, PAASCHE et 
FISHER. Dans chaque cas, nous définirons l'indice et nous illustrerons son mode de 
calcul par un exemple. 


B- Les indices de LASPEYRES 


L'économiste allemand Ernst Louis Etienne LASPEYRES (1834-1913) a proposé de 
calculer deux indices synthétiques qui portent son nom : l'indice de LASPEYRES des 
prix et l'indice de LASPEYRES des quantités. 


1) L'indice de LASPEYRES des prix 


L'indice de LASPEYRES des prix mesure l’évolution entre deux dates 0 et t, des 
prix des biens qui composent un panier, en prenant comme référence la valeur du 
panier à la date initiale (t = 0) et en supposant que les quantités de biens dans le 
panier n'ont pas varié entre 0 et t. 


Les indices 157 


L'indice de LASPEYRES des prix se définit comme suit : 


On voit ainsi que si les prix ne changent pas entre O et t (c'est-à-dire si p{= pl), 
l'indice synthétique de LASPEYRES des prix demeure égal à 100. 


Exemple : Soit le tableau 2, qui donne les prix et les quantités de deux produits 1 et 
2, aux périodes 0 et t. 


Tableau 2 


TT 


Calculons l'indice de LASPEYRES des prix : 


DT 


1, 2 4400 - Pia + prqé _ (14x4)+(6x12) 


= 103,57 
” Podo + Pod (10x4)+(6x12) | 
2PiR 


10 


Dans notre exemple, le prix du bien 1 a augmenté (de 10 à 14) et le prix du bien 2 a 
baissé. L'indice, qui synthétise ces deux variations contraires, nous permet de 
conclure à une « inflation », c'est-à-dire une augmentation du niveau général des prix 


égale à 3,57%. 


158 MÉMENTO -— STATISTIQUE DESCRIPTIVE 


2) L'indice de LASPEYRES des quantités 


L'indice de LASPEYRES des quantités mesure l'évolution entre deux dates 0 et t, 
des quantités des biens qui composent un panier, en prenant comme référence la 
valeur du panier à la date initiale (t=0) et en supposant que les prix des biens dans le 
panier n'ont pas varié entre 0 et t. 


On a donc la formule suivante de l'indice de LASPEYRES des quantités : 


n s e 

JL l 

DT 

Q _ it 
LES on 


S Pod 
1 


x 100 


On voit ainsi que si les quantités ne changent pas entre 0 et t (c'est-à-dire si q/{= qj, 
l'indice synthétique de LASPEYRES des quantités demeure égal à 100. 


Exemple : Soit le tableau 2, qui donne les prix et les quantités de deux produits 1 et 
2, aux périodes 0 et t. 


Calculons l'indice de LASPEYRES des quantités : 


pig; 
LE 2 d 400 - Poe + PéQr _ 


(10x8)+(6x9) 
10 n 1 


= 119,64 
ii pod + pêdé  (10x4)+(6x12) 
2. Pi 


Dans notre exemple, la quantité du bien 1 a augmenté (de 4 à 8) et la quantité du bien 
2 a baissé. L'indice, qui synthétise ces deux variations contraires, nous permet de 
conclure à une augmentation des volumes égale à 19,64%. 


C- Les indices de PAASCHE 


L'économiste allemand Hermann PAASCHE (1851-1925) a proposé de calculer deux 
indices synthétiques qui portent son nom : l'indice de PAASCHE des prix et l'indice de 
PAASCHE des quantités. 
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1) L'indice de PAASCHE des prix 


L'indice de PAASCHE des prix mesure l’évolution entre deux dates 0 et t, des prix 
des biens qui composent un panier, en prenant comme référence la valeur du panier 
à la date terminale (t) et en supposant que les quantités de biens dans le panier n’ont 
pas varié entre D ett. 


On a donc la formule suivante de l'indice de PAASCHE des prix : 


Exemple : Soit le tableau 2, qui donne les prix et les quantités de deux produits 1 et 
2, aux périodes 0 et t. 


Calculons l'indice de PAASCHE des prix : 


p\a' 
Z ‘ _ 400 = PIE + PÉde ee = 117.16 


Ÿ piqi pod + pq (10x8)+(6x 


Dans notre exemple, le prix du bien 1 a augmenté (de 10 à 14) et le prix du bien 2 a 
baissé. L'indice, qui synthétise ces deux variations contraires, nous permet de conclure à 
une « inflation », c’est-à-dire une augmentation du niveau général des prix égale à 17,6% 
(contre 3,57% quand on utilise la formule de LASPEYRES). 


2) L'indice de PAASCHE des quantités 


L'indice de PAASCHE des quantités mesure l’évolution entre deux dates 0 et t, des 
quantités des biens qui composent un panier, en prenant comme référence la valeur 
du panier à la date terminale (t) et en supposant que les prix des biens dans le panier 
n'ont pas varié entre 0 et t. 


On a donc la formule suivante de l'indice de PAASCHE des quantités : 
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Exemple : Soit le tableau 2, qui donne les prix et les quantités de deux produits 1 et 
2, aux périodes 0 et t. 


Calculons l'indice de PAASCHE des quantités : 


Spd 


pe = ,x4100-Pid + Pia _ (14x8)+(5x9) 


= 135,34 
F3 pig +piq (14x4)+(5x12) | 
2PiR 


Dans notre exemple, la quantité du bien 1 a augmenté (de 4 à 8) et la quantité du bien 2 
a baissé. L'indice, qui synthétise ces deux variations contraires, nous permet de 
conclure à une augmentation des volumes égale à 35,34% (contre 19,64% quand on 
utilise la formule de LASPEYRES). 


D — Les indices de FISHER 


L'économiste américain Irving FISHER (1867-1947) a proposé de calculer deux 
indices synthétiques qui portent son nom : l'indice de FISHER des prix et l'indice de 
FISHER des quantités. En fait, chacun de ces deux indices est une moyenne 
géométrique des indices de LASPEYRES et de PAASCHE correspondant. 


1) L'indice de FISHER des prix 


L'indice de FISHER des prix est la moyenne géométrique des indices de prix de 
LASPEYRES et de PAASCHE 


On a donc la formule suivante de l'indice de FISHER des prix : 
Es — VE * R% 


Exemple : Soit le tableau 2, qui donne les prix et les quantités de deux produits 1 et 
2, aux périodes 0 et t. 


Calculons l'indice de FISHER des prix : 


FP, = LE, *<P?, = 103,57 x117,16 = 110,16 
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2) L'indice de FISHER des quantités 


L'indice de FISHER des quantités est la moyenne géométrique des quantités de 
prix de LASPEYRES et de PAASCHE. 


On a donc la formule suivante de l'indice de FISHER des prix : 
Fo = \ Lx 


Exemple : Soit le tableau 2, qui donne les prix et les quantités de deux produits 1 et 
2, aux périodes 0 et t. 


Calculons l'indice de FISHER des quantités : 


F9 = JL, x PS, =/119,64x135,34 = 127,39 


3 ° L'INDICE DES PRIX À LA CONSOMMATION DE L'INSEE 


L'un des indices synthétiques les plus connus et les plus utilisés est l'indice des prix à 
la consommation (IPC) publié chaque mois par l'INSEE. L'IPC permet de mesurer 
l'inflation, c'est-à-dire la variation du niveau général des prix des biens et des services 
consommés par les ménages sur le territoire français entre deux périodes données. 
C'est une mesure synthétique des évolutions de prix à qualité constante. 


Pour le calculer, l'INSEE applique la formule de l'indice de LASPEYRES des prix à un 
échantillon de quelques 21 000 indices élémentaires. Ces 21 000 indices élémentaires 
sont calculés à partir de prix recueillis dans 106 agglomérations de plus de 
2 000 habitants réparties sur tout le territoire. L'indice couvre plus de 1 000 variétés 
de produits, regroupées en 161 groupes. Pour éviter toute tentative de manipulation 
des prix, la liste précise de ces 1 000 variétés de produits reste confidentielle. 
Actuellement, la période de référence, ou « base » de l’IPC, est 1998. 


L'IPC est publié aux environs du 13 de chaque mois et porte sur l’évolution des prix du 
mois précédent. Ce chiffre, régulièrement relayé par les médias, est très attendu car il 
sert de multiples fonctions économiques parmi lesquelles la connaissance de 
l'inflation, la définition des objectifs de la politique monétaire, mais aussi le versement 
de pensions et de divers revenus, tels le SMIC, dont le montant est « indexé » sur 
l’évolution de l'IPC. 


Giossaire des formules 


Les formules sont classées par leur ordre d'apparition dans le Mémento 


Fréquence relative : Elle est égale à la fréquence absolue divisée par l'effectif total : 


Taux de croissance : Soit g = taux de croissance, V, = valeur de départ et V.,=valeur 
d'arrivée. On a : 


PURE Per 
V0 © 


Évolutions successives : Soit 91, J>,..., 9: des taux de croissance successifs. Le 
taux de croissance global sur la période 1,...,t est : 


£g= (1+g,)(1+8)..(1+g,)-1 


Taux de croissance moyen : Soit g,, g>, .…, g. des taux de croissance successifs. Le 
taux de croissance moyen sur la période 1, .., test: 


g= (+8) 
Taux de croissance d'un produit : Soi t deux grandeurs à la date t: 
V.=(1+8,)", U,=(1+28,)U, 
La grandeur qui représente leur produit est : 
W,=V,xU,=(1+2,)(1+8,)" 


Et son taux de croissance est : 
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Taux de croissance d'un rapport : Soit deux grandeurs à la date t: 
V Æ (1 SE &y WW, 
La grandeur qui représente leur rapport est : 


_V _A+sg), 


CU, (+g,) 


t 


Et son taux de croissance est : 


A+g,) 


A+g,) 


Moyenne arithmétique simple : Soit {x;, X,, .…..,x,} une série de chiffres. La formule 
de la moyenne arithmétique de cette série est donnée par : 


Z 


Moyenne arithmétique pondérée : Soit {x;, X:, .…..,x,} une série de chiffres et {n, 
n, …..,nh} les effectifs correspondants. La formule de la moyenne arithmétique pondérée 
de cette série est donnée par : 


Moyenne quadratique simple : Soit {x4, x,, .…..,x,.} une série de chiffres. La formule 
de la moyenne quadratique simple de cette série est donnée par : 


l 


1 
n'a 


Moyenne quadratique pondérée : Soit {x;, x», .…..,x.} une série de chiffres et {n;, n, 
….N}} les effectifs correspondants. La formule de la moyenne quadratique pondérée de 
cette série est donnée par : 


Q= (n,-x?) 


h 
i=1 


5 1= 
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Moyenne géométrique simple : Soit {x4, X2, x} une série de chiffres. La 
formule de la moyenne géométrique simple de cette série est donnée par : 


S1- 


e-[fx] 


Moyenne géométrique pondérée : Soit {x4, X, ..…..,x} Une série de chiffres et {n:, 
n,, nn} leS effectifs correspondants. La formule de la moyenne géométrique 
pondérée de cette série est donnée par : 

1 


ci] 


i=1 


Moyenne harmonique simple : Soit {x;, X,, ...,x.} une série de chiffres. La formule 
de la moyenne harmonique simple de cette série est donnée par : 


n 
H =— 
1 
i=1 X; 
Moyenne harmonique pondérée : Soit {x;, X, ....,x.} une série de chiffres et {n;, n,, 


….N}} les effectifs correspondants. La formule de la moyenne harmonique pondérée de 
cette série est donnée par : 


Médiane quand les effectifs groupées par classes de valeurs 


n 
F Nb 
M,=x" +a,| <—— 
i ñ 
[A 
x inf . r 2 je 
où: XX) = Borne inférieure de la classe médiane. 


N(%::) = Effectif cumulé strictement inférieur à X 
Classe médiane 


x; = Classe médiane a, = Amplitude de la classe médiane 
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Mode quand les effectifs sont groupés par classes d’amplitudes égales 


d 
Mode = x!” + a—1 
d, +d, 
x" = Borne inférieure de la classe modale a=amplitude de classe 


d=n;-n ; et do=n;-n;: 


Variance : Soit une série de valeurs d’une variable X : {x,,x,,...… .X4. Soit les effectifs 
associés à cette modalité : {n,,n,,...… n,}. La variance de cette série s'écrit : 


k 
g= Ùn (x, x) , Si l'effectif considéré est celui d'un échantillon 
Remarques : 1) Si {n;,n,..….. nKk} = {1,1,....,1} et que k=n, la variance 


2_1< (x, 2x) , Si l'effectif considéré est celui d’une population 


1 £ _ ; : es de j 
o? = —— (x, _ x) , Si l'effectif considéré est celui d’un échantillon 


2) La formule développée de la variance est : 


k 


n,(x; x -Dnx x? 
1 


2 
© = 


k 
i=1 


S | 
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Écart-type : L'écart-type est égal à la racine carrée de la variance : 


1 es 1 = 
o- [En (x x) = 2x x° 


Si aucune valeur n’est répétée ou si les données ne sont pas regroupées par valeur, on 
a: 


=. 1 n SV 1 n 2 —2 
© 320 x) Ex x 


Coefficient de variation : || est donné par le rapport de l’écart-type à la moyenne, 
multiplié par 100. 


cv -[T «100 
X 


Médiale : C’est un indicateur qui s'apparente à la médiane, mais appliquée à une série 
différente. En effet, alors que la médiane s’applique aux valeurs de la variable (les «x, »), 
la médiale s'applique aux valeurs de la variables multipliées par leurs effectifs respectifs 
(les « n,.x, »). C'est la valeur du caractère qui partage l'effectif cumulé des n..x, en deux 
parties égales. Elle sert à déterminer la concentration de la distribution par comparaison 
avec la médiane et l'intervalle de variation. D'où la formule : 


5 —N(n;x,) 
inf 
M, = x" +a, 
n;X; 
x inf . A » Je 
où: X} = Borne inférieure de la classe médiale. 


N(x,.)= Effectif cumulé strictement inférieur à n; x, 


X;,= Classe médiale a, = Amplitude de la classe médiale 


! 
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Indice de GINI : La formule analytique de l'indice de GINI est donnée par: 


Pe 


2n(n-1)x 


X; —X; nn; 


| 


Moyennes marginales : Soit deux variables X et Y, dont on étudie la liaison. Les 
moyennes marginales de X et de YŸ sont données par : 


Où : 


Variances marginales : Les variances marginales de x et de y se calculent à partir 
des distributions marginales suivant les formules suivantes : 
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Moyennes conditionnelles : La formule des moyennes conditionnelles de x et de y 


est donnée par : 


- 1< - 
En 2 n TEE 


Variances conditionnelles : La formule des variances conditionnelles de x et de y est 


donnée par : 


Droite de régression linéaire : Soit la droite d’équation : 


y=ax+b 


Pour ajuster par une droite un nuage de points dans le plan {X,Y}, il faut calculer 
les coefficients a et b en appliquant les formules suivantes : 


a = oMCey) b=y-ax 
s 2 
(0x 


X 


Où cov(x,y) représente la covariance de (x,y) et se calcule ainsi : 
1 n 

cov(x,y)=— X x,y.-xy 
n; = 


Par conséquent, la formule détaillée de a est : 


[S 
Il 
S 


CRIME 


sl 
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Coefficient de corrélation (données non groupées) : il mesure la plus ou moins 
grande dépendance entre les deux caractères X et Y. On le désigne par la lettre "r" et il 
varie entre -1 et +1 : 


Plus r est proche de +1 ou de -1, plus les deux caractères sont dépendants. Plus il est 
proche de 0, plus les deux caractères sont indépendants 


Test d'indépendance : Deux variables X et Y sont indépendantes si et seulement si : 


Me xe; 


n. 
d n 


Il suffit donc a contrario qu'un n; quelconque soit tel que : 


pour que l’on puisse conclure à l'absence d'indépendance. Il est donc généralement plus 
rapide de vérifier l'absence d'indépendance que d'établir l'indépendance. 


Coefficient de corrélation (données groupées) : Quand les données sont 
groupées, le coefficient de corrélation s'écrit : 
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Indice élémentaire : Un indice élémentaire renseigne sur l'évolution temporelle ou 
situationnelle (spatiale) d’une seule valeur. Il a pour formule : 


be = x100 
M 


Valeur d’un panier de produits : Soit Vi = p/ q/la valeur du bien i, à la date i où pj 
représente le prix du bien ; à la date t et q/sa quantité. S'il y a n produits dans le 
panier (i=1,n), la valeur totale du panier à la date t s’écrit : 


Indice de LASPEYRES des prix : I! mesure l’évolution entre deux dates 0 et t, des 
prix des biens qui composent un panier, en prenant comme référence la valeur du 
panier à la date initiale (t=0) et en supposant que les quantités de biens dans le panier 
n'ont pas varié entre 0 et t. Sa formule est : 


> pig 
LP, = %100 


DIT 
1 


où p; représente le prix du bien i à la date t et q/sa quantité. 


Indice de LASPEYRES des quantités : || mesure l’évolution entre deux dates 0 et t, 
des quantités des biens qui composent un panier, en prenant comme référence la 
valeur du panier à la date initiale (t=0) et en supposant que les prix des biens dans le 
panier n'ont pas varié entre 0 et t. Sa formule est : 


DC 
19,=  x100 


> P5% 


où pj représente le prix du bien j à la date t et q/sa quantité. 
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Indice de PAASCHE des prix : I! mesure l’évolution entre deux dates 0 et t, des prix 
des biens qui composent un panier, en prenant comme référence la valeur du panier 
à la date terminale (t) et en supposant que les quantités de biens dans le panier n'ont 
pas varié entre 0 et t. Sa formule est : 


où pj représente le prix du bien j à la date t et q/sa quantité. 


Indice de PAASCHE des quantités : || mesure l’évolution entre deux dates 0 et t, des 
quantités des biens qui composent un panier, en prenant comme référence la valeur 
du panier à la date terminale (t) et en supposant que les prix des biens dans le panier 
n'ont pas varié entre 0 et t. Sa formule est : 


Yp;q; 
Pi = Li —x100 


Yi 
i=1 


où p/ représente le prix du bien j à la date t et q/sa quantité. 


Indice de FISHER des prix : C’est la moyenne géométrique des indices de prix de 
LASPEYRES et de PAASCHE : 


P _ Î;P P 
Fi = Lo x F0 


Indice de FISHER des quantités : C’est la moyenne géométrique des quantités de 
prix de LASPEYRES et de PAASCHE : 


P _ Î;P P 
F0 = V0 * Fo 
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